Chaplin:实时唇语识别工具

【免费下载链接】chaplin A real-time silent speech recognition tool. 【免费下载链接】chaplin 项目地址: https://gitcode.com/gh_mirrors/chapl/chaplin

Chaplin是一款基于视觉语音识别(VSR)的开源工具,能够实时读取用户的唇语并将无声口型转换为文字。该工具完全在本地运行,无需依赖网络连接,保证了数据的私密性和实时性。

项目介绍

Chaplin利用先进的深度学习模型,通过分析用户的唇部动作实现无声语音识别。它基于Auto-AVSR项目中的预训练模型,该模型使用Lip Reading Sentences 3数据集进行训练,能够准确识别多种语言的唇语。

Chaplin界面

技术架构

Chaplin的技术架构包含以下核心组件:

  • 视觉语音识别模型:基于Transformer架构的深度学习模型,专门用于唇语识别
  • 实时视频处理:使用OpenCV进行摄像头捕获和视频帧处理
  • 唇部检测:集成MediaPipe库进行精确的唇部特征点检测
  • 后处理优化:结合Qwen3语言模型对识别结果进行语义校正和标点添加

功能特点

实时识别能力

Chaplin能够以16fps的帧率实时处理视频流,在用户进行口型输入的同时立即生成文字输出。

本地化处理

所有数据处理都在本地完成,视频不会上传到任何服务器,确保了用户隐私和安全。

多语言支持

基于LRS3数据集训练的模型支持多种语言的唇语识别,具有良好的跨语言适应性。

智能校正

集成大型语言模型对原始识别结果进行语义校正,提高识别准确性和可读性。

安装指南

环境要求

  • Python 3.12
  • UV包管理器
  • Ollama(用于运行Qwen3模型)
  • CUDA支持的GPU(推荐)

安装步骤

  1. 克隆项目仓库:
git clone https://gitcode.com/gh_mirrors/chapl/chaplin
cd chaplin
  1. 运行安装脚本:
./setup.sh
  1. 安装并配置Ollama,拉取Qwen3模型:
ollama pull qwen3:4b
  1. 安装UV包管理器

使用教程

启动程序

运行以下命令启动Chaplin:

uv run --with-requirements requirements.txt --python 3.12 main.py config_filename=./configs/LRS3_V_WER19.1.ini detector=mediapipe

操作说明

  1. 程序启动后会显示摄像头画面
  2. 按下Alt键(Windows/Linux)或Option键(Mac)开始录制
  3. 对着摄像头进行口型输入
  4. 再次按下Alt/Option键停止录制
  5. 识别结果会自动输入到当前光标位置
  6. 按Q键退出程序

配置文件

主要的配置文件位于configs/LRS3_V_WER19.1.ini,包含模型参数和识别设置。

应用场景

辅助交流工具

为听障人士提供额外的交流方式,通过唇语识别帮助他们更好地参与对话。

隐私保护场景

在需要保持安静的场合(如图书馆、会议室)中,用户可以通过口型进行文字输入。

远程教学辅助

教师可以使用Chaplin实时识别学生的唇语,特别是在网络课程中增强互动性。

智能设备交互

为智能助手和物联网设备提供更自然的交互方式,减少对语音输入的依赖。

技术优势

高性能识别

采用先进的视觉语音识别技术,在LRS3数据集上达到19.1%的词错误率。

低延迟处理

优化的视频处理流水线确保实时性能,从口型到文字的转换延迟极低。

可扩展架构

模块化的设计允许轻松集成新的检测器、模型和后处理组件。

开发接口

Chaplin提供清晰的API接口,开发者可以通过chaplin.py中的Chaplin类进行集成:

from chaplin import Chaplin

# 初始化识别器
recognizer = Chaplin()

# 加载模型
recognizer.vsr_model = InferencePipeline(config_path)

# 启动识别
recognizer.start_webcam()

性能优化

项目针对实时应用进行了多项优化:

  • 帧压缩技术减少内存占用
  • 多线程处理提高并发性能
  • GPU加速支持深度学习推理
  • 异步处理避免界面卡顿

Chaplin作为一款创新的唇语识别工具,为无声交互开辟了新的可能性。其本地化处理、实时性能和智能校正功能使其在各种应用场景中都具有重要价值。

【免费下载链接】chaplin A real-time silent speech recognition tool. 【免费下载链接】chaplin 项目地址: https://gitcode.com/gh_mirrors/chapl/chaplin

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐