保姆级教程：SenseVoiceSmall镜像快速部署，支持中英日韩粤语识别

本文介绍了如何在星图GPU平台上自动化部署SenseVoiceSmall多语言语音理解模型（富文本/情感识别版），实现高效的多语言语音识别与情感分析。该镜像支持中、英、日、韩、粤五种语言的自动识别，并能检测说话人情绪和环境声音，特别适用于智能客服质检、会议内容自动标注等场景，显著提升语音处理效率。

征途阿韦

290人浏览 · 2026-04-11 06:12:39

征途阿韦 · 2026-04-11 06:12:39 发布

保姆级教程：SenseVoiceSmall镜像快速部署，支持中英日韩粤语识别

1. 引言：语音识别的新高度

传统的语音识别技术只能将声音转换为文字，而SenseVoiceSmall带来了革命性的升级。这款由阿里巴巴达摩院开源的多语言语音理解模型，不仅能准确识别中、英、日、韩、粤五种语言，还能感知说话人的情绪和环境声音。

想象一下，你的系统不仅能记录会议内容，还能自动标注"这段发言带着愤怒情绪"、"这里有掌声和笑声"。这种富文本识别能力为客服质检、内容分析、智能会议等场景提供了全新可能。

本教程将手把手教你如何快速部署SenseVoiceSmall镜像，无需复杂配置，即可体验这一前沿技术。

2. 环境准备与快速部署

2.1 系统要求

在开始前，请确保你的环境满足以下要求：

操作系统：Linux (推荐Ubuntu 20.04/22.04)
Python版本：3.11
GPU：NVIDIA显卡(推荐RTX 30系及以上)，显存≥8GB
驱动：CUDA 11.8及以上，cuDNN 8.6及以上

2.2 一键安装依赖

通过以下命令安装所有必要依赖：

# 安装基础依赖
pip install torch==2.5.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 安装语音处理相关库
pip install av gradio funasr modelscope

2.3 快速启动Web服务

创建一个名为app_sensevoice.py的文件，并添加以下内容：

import gradio as gr
from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess

# 初始化模型
model = AutoModel(
    model="iic/SenseVoiceSmall",
    trust_remote_code=True,
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0"
)

def process_audio(audio_path, language):
    if not audio_path:
        return "请上传音频文件"
    
    result = model.generate(
        input=audio_path,
        language=language,
        use_itn=True,
        batch_size_s=60
    )
    
    if result:
        return rich_transcription_postprocess(result[0]["text"])
    return "识别失败"

# 创建Web界面
with gr.Blocks() as demo:
    gr.Markdown("# SenseVoice多语言语音识别")
    with gr.Row():
        audio_input = gr.Audio(type="filepath", label="上传音频")
        lang_select = gr.Dropdown(
            choices=["auto", "zh", "en", "yue", "ja", "ko"],
            value="auto",
            label="选择语言"
        )
    submit_btn = gr.Button("开始识别")
    output = gr.Textbox(label="识别结果", lines=10)
    
    submit_btn.click(
        fn=process_audio,
        inputs=[audio_input, lang_select],
        outputs=output
    )

demo.launch(server_name="0.0.0.0", server_port=6006)

运行服务：

python app_sensevoice.py

3. 功能使用详解

3.1 多语言识别体验

SenseVoiceSmall支持以下语言识别：

中文普通话 (zh)
英语 (en)
粤语 (yue)
日语 (ja)
韩语 (ko)

在Web界面中，你可以：

上传音频文件或直接录音
选择对应语言(或使用auto自动检测)
点击"开始识别"按钮

3.2 情感识别功能

模型能够识别以下情绪标签：

标签	含义
`<	HAPPY
`<	ANGRY
`<	SAD
`<	NEUTRAL

例如，识别结果可能显示：

<|HAPPY|>今天天气真好！

3.3 声音事件检测

模型还能识别环境声音事件：

标签	含义
`<	BGM
`<	APPLAUSE
`<	LAUGHTER
`<	CRY

典型输出示例：

<|APPLAUSE|>感谢大家的支持！<|LAUGHTER|>

4. 进阶使用技巧

4.1 批量处理音频文件

对于需要处理大量音频的场景，可以使用以下脚本：

import os
from tqdm import tqdm

audio_dir = "your_audio_folder"
output_file = "results.txt"

model = AutoModel(model="iic/SenseVoiceSmall", device="cuda:0")

results = []
for file in tqdm(os.listdir(audio_dir)):
    if file.endswith((".wav", ".mp3")):
        path = os.path.join(audio_dir, file)
        res = model.generate(input=path, language="auto")
        text = rich_transcription_postprocess(res[0]["text"])
        results.append(f"{file}: {text}")

with open(output_file, "w", encoding="utf-8") as f:
    f.write("\n".join(results))

4.2 结果后处理

默认输出包含原始标签，可以使用以下方法进行美化：

from funasr.utils.postprocess_utils import rich_transcription_postprocess

raw_text = "<|HAPPY|>今天真开心<|LAUGHTER|>"
clean_text = rich_transcription_postprocess(raw_text)
# 输出: [开心]今天真开心[笑声]

4.3 性能优化建议

对于长音频，适当调整batch_size_s参数(默认60)
如果显存不足，可以尝试减小batch_size_s或使用CPU模式
确保音频采样率为16kHz以获得最佳效果

5. 常见问题解答

5.1 模型加载失败怎么办？

检查网络连接，确保能访问ModelScope
尝试设置环境变量：export USE_MODELSCOPE_HUB=1
确认PyTorch版本与CUDA匹配

5.2 识别结果不准确如何改善？

确保音频质量清晰，背景噪音少
明确指定语言而非使用auto
尝试调整use_itn(智能文本归一化)参数

5.3 如何扩展支持更多语言？

目前SenseVoiceSmall官方支持5种语言。如需更多语言，可以考虑：

使用阿里云的其他语音识别服务
等待官方模型更新
自行微调模型(需要专业知识)

6. 总结与下一步

通过本教程，你已经成功部署了SenseVoiceSmall镜像，并体验了其强大的多语言识别、情感分析和声音事件检测功能。这款模型特别适合以下场景：

智能客服情绪分析
会议内容自动记录与标注
多媒体内容分析与检索
语音交互应用的增强

建议下一步：

尝试处理不同类型的音频文件
探索如何将识别结果集成到你的应用中
关注ModelScope上的模型更新

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git