部署语音识别模型之SenseVoice

小邢廿四

802人浏览 · 2026-01-27 13:48:38

小邢廿四 · 2026-01-27 13:48:38 发布

SenseVoice介绍

SenseVoice 是 FunAudioLLM 框架中的核心组成部分之一，由阿里巴巴通义实验室及社区开源项目开发，是具有音频理解能力的音频基础模型，包括语音识别（ASR）、语种识别（LID）、语音情感识别（SER）和声学事件分类（AEC）或声学事件检测（AED）。

核心功能

SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测

多语言识别： 采用超过 40 万小时数据训练，支持超过 50 种语言，识别效果上优于 Whisper 模型。
富文本识别：
- 具备优秀的情感识别，能够在测试数据上达到和超过目前最佳情感识别模型的效果。
- 支持声音事件检测能力，支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。
高效推理： SenseVoice-Small 模型采用非自回归端到端框架，推理延迟极低，10s 音频推理仅耗时 70ms，15 倍优于 Whisper-Large。
微调定制： 具备便捷的微调脚本与策略，方便用户根据业务场景修复长尾样本问题。
服务部署： 具有完整的服务部署链路，支持多并发请求，支持客户端语言有，python、c++、html、java 与 c# 等。

本文重点介绍语言识别功能

代码下载 / 环境配置 / 实例运行

GItHub

源码地址：https://github.com/FunAudioLLM/SenseVoice

首先cd到项目目录，然后进行 git clone

(base) PS D:\A-Study\PythonFiles\LargeModel> git clone https://github.com/FunAudioLLM/SenseVoice.git
Cloning into 'SenseVoice'...
remote: Enumerating objects: 405, done.
remote: Counting objects: 100% (321/321), done.
remote: Compressing objects: 100% (107/107), done.
remote: Total 405 (delta 233), reused 214 (delta 214), pack-reused 84 (from 2)
Receiving objects: 100% (405/405), 6.69 MiB | 2.79 MiB/s, done.
Resolving deltas: 100% (250/250), done.

没有git的可以直接下载压缩包再解压到指定目录

环境配置

requirements.txt 文件中缺少ffmpeg库的安装，我们需要单独进行安装 ffmpeg

(base) PS D:\A-Study\PythonFiles\LargeModel> cd SenseVoice
(base) PS D:\A-Study\PythonFiles\LargeModel\SenseVoice> conda create -n SenseVoice python==3.9
(base) PS D:\A-Study\PythonFiles\LargeModel\SenseVoice> conda activate SenceVoice
(SenseVoice) PS D:\A-Study\PythonFiles\LargeModel\SenseVoice> pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
(SenseVoice) PS D:\A-Study\PythonFiles\LargeModel\SenseVoice> pip install -r requirements.txt
(SenseVoice) PS D:\A-Study\PythonFiles\LargeModel\SenseVoice> conda install -c conda-forge ffmpeg

torch下载需要科学上网，若没有可以使用国内镜像源

下载其他的库也是一样的，在后面加： -i 镜像源地址

(SenseVoice) PS D:\A-Study\PythonFiles\LargeModel\SenseVoice> pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 -i https://pypi.tuna.tsinghua.edu.cn/simple
(SenseVoice) PS D:\A-Study\PythonFiles\LargeModel\SenseVoice> pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

清华源：https://pypi.tuna.tsinghua.edu.cn/simple/

阿里源：https://mirrors.aliyun.com/pypi/simple/

中科大：https://pypi.mirrors.ustc.edu.cn/simple/

腾讯云：https://mirrors.cloud.tencent.com/pypi/simple/

华为云：https://repo.huaweicloud.com/repository/pypi/simple/

魔搭（ModelScope）

地址：http://https://www.modelscope.cn/models/iic/SenseVoiceSmall

1. 安装魔搭依赖

2. 在SenseVoice下创建icc文件夹

3. 进行icc文件夹进行 git clone

(SenseVoice) PS D:\A-Study\PythonFiles\LargeModel\SenseVoice> pip install -U funasr modelscope
(SenseVoice) PS D:\A-Study\PythonFiles\LargeModel\SenseVoice> cd icc
(SenseVoice) PS D:\A-Study\PythonFiles\LargeModel\SenseVoice\icc> git clone https://www.modelscope.cn/iic/SenseVoiceSmall.git
(SenseVoice) PS D:\A-Study\PythonFiles\LargeModel\SenseVoice\icc>git clone https://www.modelscope.cn/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch.git

4. 在 SenseVoiceSmall 文件夹下找到 example文件夹（example中包含音频数据）

5. 将其复制到 SenseVoice 文件夹下

6. 在 SenseVoice 文件夹下找到 webui.py

7. 找到 audio_examples 并注释掉多余 examples

实例运行

1. 运行 webui.py （部分库可能会出现版本兼容问题，按照提示更新或者后退版本）

2. 出现URL链接就是运行成功了

3. 进入链接

4. 运行结果

5. 同时终端同步输出结果

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git