Chaplin:实时唇语识别工具
Chaplin是一款基于视觉语音识别(VSR)的开源工具,能够实时读取用户的唇语并将无声口型转换为文字。该工具完全在本地运行,无需依赖网络连接,保证了数据的私密性和实时性。## 项目介绍Chaplin利用先进的深度学习模型,通过分析用户的唇部动作实现无声语音识别。它基于Auto-AVSR项目中的预训练模型,该模型使用Lip Reading Sentences 3数据集进行训练,能够准确识别
Chaplin:实时唇语识别工具
Chaplin是一款基于视觉语音识别(VSR)的开源工具,能够实时读取用户的唇语并将无声口型转换为文字。该工具完全在本地运行,无需依赖网络连接,保证了数据的私密性和实时性。
项目介绍
Chaplin利用先进的深度学习模型,通过分析用户的唇部动作实现无声语音识别。它基于Auto-AVSR项目中的预训练模型,该模型使用Lip Reading Sentences 3数据集进行训练,能够准确识别多种语言的唇语。
技术架构
Chaplin的技术架构包含以下核心组件:
- 视觉语音识别模型:基于Transformer架构的深度学习模型,专门用于唇语识别
- 实时视频处理:使用OpenCV进行摄像头捕获和视频帧处理
- 唇部检测:集成MediaPipe库进行精确的唇部特征点检测
- 后处理优化:结合Qwen3语言模型对识别结果进行语义校正和标点添加
功能特点
实时识别能力
Chaplin能够以16fps的帧率实时处理视频流,在用户进行口型输入的同时立即生成文字输出。
本地化处理
所有数据处理都在本地完成,视频不会上传到任何服务器,确保了用户隐私和安全。
多语言支持
基于LRS3数据集训练的模型支持多种语言的唇语识别,具有良好的跨语言适应性。
智能校正
集成大型语言模型对原始识别结果进行语义校正,提高识别准确性和可读性。
安装指南
环境要求
- Python 3.12
- UV包管理器
- Ollama(用于运行Qwen3模型)
- CUDA支持的GPU(推荐)
安装步骤
- 克隆项目仓库:
git clone https://gitcode.com/gh_mirrors/chapl/chaplin
cd chaplin
- 运行安装脚本:
./setup.sh
- 安装并配置Ollama,拉取Qwen3模型:
ollama pull qwen3:4b
- 安装UV包管理器
使用教程
启动程序
运行以下命令启动Chaplin:
uv run --with-requirements requirements.txt --python 3.12 main.py config_filename=./configs/LRS3_V_WER19.1.ini detector=mediapipe
操作说明
- 程序启动后会显示摄像头画面
- 按下Alt键(Windows/Linux)或Option键(Mac)开始录制
- 对着摄像头进行口型输入
- 再次按下Alt/Option键停止录制
- 识别结果会自动输入到当前光标位置
- 按Q键退出程序
配置文件
主要的配置文件位于configs/LRS3_V_WER19.1.ini,包含模型参数和识别设置。
应用场景
辅助交流工具
为听障人士提供额外的交流方式,通过唇语识别帮助他们更好地参与对话。
隐私保护场景
在需要保持安静的场合(如图书馆、会议室)中,用户可以通过口型进行文字输入。
远程教学辅助
教师可以使用Chaplin实时识别学生的唇语,特别是在网络课程中增强互动性。
智能设备交互
为智能助手和物联网设备提供更自然的交互方式,减少对语音输入的依赖。
技术优势
高性能识别
采用先进的视觉语音识别技术,在LRS3数据集上达到19.1%的词错误率。
低延迟处理
优化的视频处理流水线确保实时性能,从口型到文字的转换延迟极低。
可扩展架构
模块化的设计允许轻松集成新的检测器、模型和后处理组件。
开发接口
Chaplin提供清晰的API接口,开发者可以通过chaplin.py中的Chaplin类进行集成:
from chaplin import Chaplin
# 初始化识别器
recognizer = Chaplin()
# 加载模型
recognizer.vsr_model = InferencePipeline(config_path)
# 启动识别
recognizer.start_webcam()
性能优化
项目针对实时应用进行了多项优化:
- 帧压缩技术减少内存占用
- 多线程处理提高并发性能
- GPU加速支持深度学习推理
- 异步处理避免界面卡顿
Chaplin作为一款创新的唇语识别工具,为无声交互开辟了新的可能性。其本地化处理、实时性能和智能校正功能使其在各种应用场景中都具有重要价值。
更多推荐
所有评论(0)