从零开始：FunASR语音识别系统部署指南，附完整代码和截图

本文介绍了如何在星图GPU平台上自动化部署FunASR语音识别镜像（基于speech_ngram_lm_zh-cn二次开发构建by科哥），实现高效中文语音转写。该镜像特别优化了中文N-gram语言模型，识别准确率提升15%，适用于会议记录转写、视频字幕生成等场景，通过WebUI界面简化操作流程。

亿风行

110人浏览 · 2026-03-24 00:32:10

亿风行 · 2026-03-24 00:32:10 发布

从零开始：FunASR语音识别系统部署指南，附完整代码和截图

1. 引言

1.1 为什么选择FunASR

语音识别技术正在改变我们与设备交互的方式。FunASR作为阿里达摩院开源的语音识别工具包，凭借其高精度和丰富的功能特性，成为中文语音识别领域的佼佼者。相比其他开源方案，FunASR具有以下优势：

支持离线/在线两种识别模式
内置标点恢复功能，自动添加逗号、句号
提供语音活动检测(VAD)，智能分割静音段
可输出时间戳信息，便于制作字幕

1.2 本指南的价值

本文将带您从零开始，一步步部署基于speech_ngram_lm_zh-cn二次开发的FunASR镜像。这个定制版本特别针对中文场景优化，相比原版：

集成了中文N-gram语言模型，识别准确率提升15%
提供直观的WebUI界面，无需编写代码即可使用
支持多种音频格式和实时录音
输出结果可直接用于字幕制作

2. 环境准备

2.1 硬件要求

组件	最低配置	推荐配置
CPU	Intel i5	Intel i7或更高
内存	8GB	16GB
显卡	集成显卡	NVIDIA GPU(支持CUDA)
存储	10GB可用空间	20GB可用空间

2.2 软件依赖

Docker Desktop(已安装并运行)
支持WebRTC的现代浏览器(Chrome/Firefox)

3. 镜像部署

3.1 拉取镜像

打开终端，执行以下命令拉取定制镜像：

docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.9

3.2 创建模型目录

建议在本地创建专用目录存放模型和输出文件：

mkdir -p /path/to/FunASR/model

3.3 启动容器

使用以下命令启动容器：

docker run -p 7860:7860 -it --privileged=true \
  -v /path/to/FunASR/model:/workspace/models \
  registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.9

参数说明：

-p 7860:7860：将容器内WebUI服务端口映射到宿主机
-v：挂载本地目录用于持久化存储
--privileged=true：赋予容器必要权限

4. WebUI服务启动

4.1 进入容器终端

容器启动后，会自动进入终端环境。执行以下命令启动WebUI：

cd /workspace/FunASR/runtime/webui && python app.main.py

4.2 访问Web界面

服务启动后，在浏览器中访问：

http://localhost:7860

如果是远程服务器，使用服务器IP替换localhost：

http://<服务器IP>:7860

首次加载可能需要1-2分钟初始化模型，看到"模型已加载"提示即可使用。

5. 界面功能详解

5.1 控制面板(左侧)

5.1.1 模型选择

Paraformer-Large：高精度模型，适合正式任务
SenseVoice-Small：轻量模型，响应更快(默认)

5.1.2 设备选择

CUDA：GPU加速(推荐有显卡时使用)
CPU：通用模式

5.1.3 功能开关

标点恢复(PUNC)：自动添加标点
语音活动检测(VAD)：智能分割静音段
输出时间戳：显示词句时间信息

5.2 主操作区(右侧)

5.2.1 上传音频

支持格式：

WAV(.wav)
MP3(.mp3)
M4A(.m4a)
FLAC(.flac)
OGG(.ogg)
PCM(.pcm)

推荐使用16kHz采样率的单声道音频。

5.2.2 实时录音

点击"麦克风录音"按钮，授权后即可开始录音。

6. 完整使用流程

6.1 上传文件识别

点击"上传音频"选择文件
设置识别参数：
- 批量大小：300秒(默认)
- 识别语言：auto(自动检测)或zh(中文)
点击"开始识别"
查看结果：
- 文本结果：纯文本输出
- 详细信息：JSON格式完整数据
- 时间戳：词句时间信息

6.2 实时录音识别

点击"麦克风录音"
允许浏览器访问麦克风
对着麦克风说话
点击"停止录音"结束
点击"开始识别"处理录音
查看识别结果

7. 结果导出与应用

7.1 下载选项

下载文本：纯文本(.txt)
下载JSON：完整数据(.json)
下载SRT：字幕文件(.srt)

7.2 文件存储位置

所有输出保存在挂载目录下的outputs子目录，按时间戳组织：

outputs/
└── outputs_20260104123456/
    ├── audio_001.wav
    ├── result_001.json
    ├── text_001.txt
    └── subtitle_001.srt

8. 常见问题解决

8.1 识别不准确

确保音频质量良好
选择正确的识别语言(中文选zh)
尝试重新加载模型

8.2 识别速度慢

检查是否使用GPU模式
缩短音频长度(≤5分钟)
选择SenseVoice-Small模型

8.3 录音无声

检查浏览器麦克风权限
确保没有其他程序占用麦克风
测试麦克风硬件是否正常

9. 总结

通过本指南，您已经完成了：

FunASR定制镜像的Docker部署
WebUI服务的启动与访问
文件上传和实时录音两种识别方式
结果的查看与导出

这套方案特别适合：

会议记录自动转写
视频字幕生成
语音输入辅助
语音质检分析

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git