Chaplin：实时唇语识别工具

Chaplin是一款基于视觉语音识别（VSR）的开源工具，能够实时读取用户的唇语并将无声口型转换为文字。该工具完全在本地运行，无需依赖网络连接，保证了数据的私密性和实时性。## 项目介绍Chaplin利用先进的深度学习模型，通过分析用户的唇部动作实现无声语音识别。它基于Auto-AVSR项目中的预训练模型，该模型使用Lip Reading Sentences 3数据集进行训练，能够准确识别

宣利权Counsellor

966人浏览 · 2025-11-15 07:09:13

宣利权Counsellor · 2025-11-15 07:09:13 发布

Chaplin：实时唇语识别工具

【免费下载链接】chaplin A real-time silent speech recognition tool. 项目地址: https://gitcode.com/gh_mirrors/chapl/chaplin

Chaplin是一款基于视觉语音识别（VSR）的开源工具，能够实时读取用户的唇语并将无声口型转换为文字。该工具完全在本地运行，无需依赖网络连接，保证了数据的私密性和实时性。

项目介绍

Chaplin利用先进的深度学习模型，通过分析用户的唇部动作实现无声语音识别。它基于Auto-AVSR项目中的预训练模型，该模型使用Lip Reading Sentences 3数据集进行训练，能够准确识别多种语言的唇语。

技术架构

Chaplin的技术架构包含以下核心组件：

视觉语音识别模型：基于Transformer架构的深度学习模型，专门用于唇语识别
实时视频处理：使用OpenCV进行摄像头捕获和视频帧处理
唇部检测：集成MediaPipe库进行精确的唇部特征点检测
后处理优化：结合Qwen3语言模型对识别结果进行语义校正和标点添加

功能特点

实时识别能力

Chaplin能够以16fps的帧率实时处理视频流，在用户进行口型输入的同时立即生成文字输出。

本地化处理

所有数据处理都在本地完成，视频不会上传到任何服务器，确保了用户隐私和安全。

多语言支持

基于LRS3数据集训练的模型支持多种语言的唇语识别，具有良好的跨语言适应性。

智能校正

集成大型语言模型对原始识别结果进行语义校正，提高识别准确性和可读性。

安装指南

环境要求

Python 3.12
UV包管理器
Ollama（用于运行Qwen3模型）
CUDA支持的GPU（推荐）

安装步骤

克隆项目仓库：

git clone https://gitcode.com/gh_mirrors/chapl/chaplin
cd chaplin

运行安装脚本：

./setup.sh

安装并配置Ollama，拉取Qwen3模型：

ollama pull qwen3:4b

安装UV包管理器

使用教程

启动程序

运行以下命令启动Chaplin：

uv run --with-requirements requirements.txt --python 3.12 main.py config_filename=./configs/LRS3_V_WER19.1.ini detector=mediapipe

操作说明

程序启动后会显示摄像头画面
按下Alt键（Windows/Linux）或Option键（Mac）开始录制
对着摄像头进行口型输入
再次按下Alt/Option键停止录制
识别结果会自动输入到当前光标位置
按Q键退出程序

配置文件

主要的配置文件位于configs/LRS3_V_WER19.1.ini，包含模型参数和识别设置。

应用场景

辅助交流工具

为听障人士提供额外的交流方式，通过唇语识别帮助他们更好地参与对话。

隐私保护场景

在需要保持安静的场合（如图书馆、会议室）中，用户可以通过口型进行文字输入。

远程教学辅助

教师可以使用Chaplin实时识别学生的唇语，特别是在网络课程中增强互动性。

智能设备交互

为智能助手和物联网设备提供更自然的交互方式，减少对语音输入的依赖。

技术优势

高性能识别

采用先进的视觉语音识别技术，在LRS3数据集上达到19.1%的词错误率。

低延迟处理

优化的视频处理流水线确保实时性能，从口型到文字的转换延迟极低。

可扩展架构

模块化的设计允许轻松集成新的检测器、模型和后处理组件。

开发接口

Chaplin提供清晰的API接口，开发者可以通过chaplin.py中的Chaplin类进行集成：

from chaplin import Chaplin

# 初始化识别器
recognizer = Chaplin()

# 加载模型
recognizer.vsr_model = InferencePipeline(config_path)

# 启动识别
recognizer.start_webcam()

性能优化

项目针对实时应用进行了多项优化：

帧压缩技术减少内存占用
多线程处理提高并发性能
GPU加速支持深度学习推理
异步处理避免界面卡顿

Chaplin作为一款创新的唇语识别工具，为无声交互开辟了新的可能性。其本地化处理、实时性能和智能校正功能使其在各种应用场景中都具有重要价值。

【免费下载链接】chaplin A real-time silent speech recognition tool. 项目地址: https://gitcode.com/gh_mirrors/chapl/chaplin

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git