小白保姆级教程：手把手教你搭建Fun-ASR语音系统

本文介绍了如何在星图GPU平台上自动化部署Fun-ASR钉钉联合通义推出的语音识别大模型语音识别系统（构建by科哥），实现本地化、低延迟的语音转文字功能。用户无需编程基础，即可快速部署并应用于会议录音转写、教学字幕生成及客服语音批量处理等典型场景，兼顾隐私安全与高准确率。

leniou的牙膏

185人浏览 · 2026-01-30 01:00:45

leniou的牙膏 · 2026-01-30 01:00:45 发布

小白保姆级教程：手把手教你搭建Fun-ASR语音系统

你是不是也遇到过这些情况？
开会录音堆了十几条，手动听写到凌晨；
客户发来一段30分钟的语音咨询，想快速整理成文字却要反复上传、等待、下载；
做教学视频时，字幕生成不是延迟高就是错别字连篇……

别折腾了。今天这篇教程，不讲原理、不堆参数、不画架构图，就用最直白的方式，带你从零开始——在自己电脑上，5分钟内跑起 Fun-ASR 语音识别系统。它不是云端API，不传数据、不花钱、不卡顿；它是由钉钉联合通义实验室推出、科哥封装成Web界面的本地语音识别大模型，支持中文、英文、日文，一句话就能把录音转成整齐文字，还能自动把“二零二五年”变成“2025年”，把“一千二百三十四”变成“1234”。

更重要的是：你不需要懂Python，不用配环境，连显卡型号都不用查——只要会点鼠标、会敲回车，就能搞定。
下面咱们就按真实操作顺序，一步一截图（文字版）、一步一说明，全程无跳步。

1. 准备工作：确认你的电脑“够格”

Fun-ASR 对硬件要求非常友好，绝大多数近年买的电脑都能跑起来。我们先花30秒快速自查：

Windows / macOS / Linux 都支持（Win10及以上、macOS 12及以上、Ubuntu 20.04及以上）
显卡不是必须项：有NVIDIA显卡（RTX 2060或更高）最好，识别快如实时；没有也没关系，CPU也能稳稳运行（只是稍慢一点）
内存建议 ≥8GB（16GB更顺滑）
硬盘留出 ≥2GB 空间（模型+界面+缓存）
浏览器用 Chrome 或 Edge（Firefox和Safari对麦克风支持不稳定，暂不推荐）

小提示：如果你用的是MacBook Air/Pro（M1/M2/M3芯片），恭喜你——它能直接调用苹果自研GPU（MPS后端），速度接近同档NVIDIA显卡，完全不用装CUDA驱动！

确认没问题？那我们马上进入正题。

2. 一键下载与解压：30秒完成

Fun-ASR WebUI 是一个“开箱即用”的压缩包，无需安装，不改系统，所有文件都在一个文件夹里。

2.1 下载地址（官方镜像）

请访问 CSDN 星图镜像广场，搜索 “Fun-ASR” 或直接点击：
Fun-ASR 钉钉×通义语音识别系统（科哥构建版）

注意：一定要下载带 “WebUI” 字样的完整镜像包（文件名类似 fun-asr-webui-v1.0.0-linux.zip 或 ...win.zip），不要只下模型权重文件。

2.2 解压到任意位置

Windows：右键 → “解压到当前文件夹”
macOS：双击 .zip 文件，系统自动解压
Linux：终端执行 unzip fun-asr-webui-v1.0.0-linux.zip

解压后你会看到一个叫 fun-asr-webui 的文件夹，打开它，里面是这样的结构：

fun-asr-webui/
├── start_app.sh        ← Linux/macOS 启动脚本（重点！）
├── start_app.bat       ← Windows 启动脚本（重点！）
├── app.py              ← 核心程序（不用管）
├── webui/              ← 界面文件（不用管）
└── models/             ← 模型文件（已内置，不用下载）

到这一步，你已经完成了90%的“技术活”。接下来，全是点点点。

3. 启动服务：两行命令，一次成功

别怕命令行——我们只用一条固定命令，复制粘贴就行。它不会删你文件，也不会联网乱传数据。

3.1 Windows 用户（最简单）

进入 fun-asr-webui 文件夹
按住 Shift 键，右键空白处 → 选择 “在此处打开 PowerShell 窗口”（或“在此处打开终端”）
复制粘贴以下命令，回车执行：
```
.\start_app.bat
```

如果弹出“Windows已阻止此软件”的提示，点“更多信息” → “仍要运行”。这是正常的安全提醒，因为它是本地未签名程序。

3.2 macOS / Linux 用户

进入 fun-asr-webui 文件夹
打开终端（Terminal）
输入以下命令（先赋予权限，再运行）：
```
chmod +x start_app.sh
./start_app.sh
```

3.3 等待启动完成（关键观察点）

你会看到终端里快速滚动文字，最后停在这样一行：

INFO    | Gradio app started at http://localhost:7860

成功！说明服务已就绪。

常见卡点提醒：

如果卡在 Loading model... 超过2分钟 → 检查是否开了杀毒软件拦截（临时关闭试试）

如果报错 No module named 'torch' → 说明你没下对镜像包，请重下“含依赖”的完整版

如果提示 port 7860 already in use → 关掉其他占用7860端口的程序（比如另一个Gradio项目），或改端口（进 start_app.sh 把 --port 7860 改成 --port 7861）

4. 打开网页，开始第一次识别

现在，打开你的 Chrome 或 Edge 浏览器，在地址栏输入：

http://localhost:7860

回车——你将看到这个界面：

Fun-ASR WebUI 主页示意图：顶部导航栏含6个功能Tab，中央是“上传音频文件”大按钮，右侧有语言选择、热词输入框等

这就是你的语音识别控制台。不用注册、不用登录、不联网——所有操作都在你本地完成。

我们立刻来试一次最简单的识别：

4.1 上传一个音频文件（30秒搞定）

点击中央蓝色大按钮 “上传音频文件”
选择一段你手机录的语音（几秒就行，比如你说一句“今天天气真好”）
支持格式：WAV、MP3、M4A、FLAC（常见格式全支持）

小技巧：如果没现成音频，用手机自带录音机录3秒，发到电脑即可。别用QQ微信语音——它们是加密AMR格式，Fun-ASR暂时不支持。

4.2 设置基础选项（2个勾选就够了）

目标语言：保持默认“中文”
启用文本规整 (ITN)：勾上（它会把口语数字、日期自动转成标准写法）
热词列表：先空着，后面再教你怎么加

4.3 开始识别 & 查看结果

点击右下角绿色按钮 “开始识别”
等待3~10秒（取决于音频长度和你的设备）
结果立刻显示在下方两个框里：
- 识别结果：原始输出，比如 jintian tianqi zhen hao
- 规整后文本： 今天天气真好 ← 这才是你要的！

第一次识别成功！你已经跨过了90%新手卡住的门槛。

5. 三大高频场景，照着做就对了

光会识别一次不够，咱们得让它真正帮你干活。下面三个场景，覆盖95%日常需求，每个都给你配好“傻瓜操作流”。

5.1 场景一：边说边转文字（实时听写）

适合：记会议要点、课堂速记、采访整理

操作流程（比录音笔还简单）：

点顶部Tab切换到 “实时流式识别”
点击中间麦克风图标 → 浏览器会弹窗问“是否允许使用麦克风？” → 点 “允许”
对着电脑说话（语速正常，不用喊）
说完后点麦克风图标停止录音
点 “开始实时识别” → 文字立刻蹦出来

注意：这不是真正的“逐字流式”，而是“分段识别+拼接”，但延迟控制在2~3秒内，完全不影响记录节奏。实测中，连续说3分钟，文字基本同步滚动，体验远超手机语音输入。

5.2 场景二：批量处理10个录音（省下2小时）

适合：培训录音、客服回访、多场会议归档

操作流程（拖进去，点一下，去喝杯咖啡）：

切换到 “批量处理” Tab
点“上传音频文件”，一次性选中10个MP3（支持拖拽！）
设置：语言选中文、ITN勾上、热词先空着
点 “开始批量处理”
看进度条走完 → 所有结果自动列出
点右上角 “导出为CSV” → 得到一个Excel表格，每行一个文件名+识别文字

实测：10段各2分钟的中文录音，在RTX 3060上共耗时约2分15秒，平均单条13秒。

5.3 场景三：从长录音里“挖”出有效对话（VAD黑科技）

适合：60分钟会议录音、1小时讲座、嘈杂环境录音

为什么需要它？
一段60分钟录音，真正说话可能只有25分钟，其余是静音、翻页、咳嗽。Fun-ASR的VAD功能能自动切出“有人说话”的片段，跳过静音，让识别又快又准。

操作流程（3步精准定位）：

切换到 “VAD 检测” Tab
上传你的长音频（比如 meeting_60min.mp3）
点 “开始 VAD 检测” → 等几秒
看结果区：它会列出所有语音片段，例如：
- 片段1：00:01:20 – 00:03:15（时长115秒）→ “大家好，今天我们讨论Q3目标…”
- 片段2：00:05:40 – 00:07:05（时长85秒）→ “技术方案下周上线…”

接下来，你可以：

点某一片段右侧的“识别”按钮，单独转写这一段；
或点“导出片段”，把所有语音部分自动裁剪成独立小文件，再扔进“批量处理”——效率提升50%以上。

6. 让识别更准的3个“神设置”（小白必学）

刚上手时识别率可能不是100%，别急——不是模型不行，是你还没给它“划重点”。这三个设置，5分钟学会，准确率立竿见影。

6.1 热词：专治“达摩院”“通义千问”识别成“打魔院”“同义千问”

在任意识别页面（语音识别/实时/批量），找到 “热词列表” 输入框

每行写一个你常提的专有名词，比如：

Fun-ASR
钉钉
通义实验室
科哥
语音识别

保存后，下次识别，“Fun-ASR”就再也不会被写成“饭爱斯儿”了

原理很简单：模型会优先把发音接近的词往你列的热词上靠，不改变模型，只优化结果。

6.2 ITN开关：决定输出是“口语”还是“书面语”

勾选 ITN → 输出规范书面语：“二零二五年三月十五号” → “2025年3月15日”
❌ 不勾选 ITN → 输出原样口语：“二零二五年三月十五号”

建议：日常办公、会议纪要、正式文档，一律勾选；做语音数据标注、研究口音时，可关闭。

6.3 设备选择：让速度翻倍的关键按钮

进入 “系统设置” Tab
找到 “计算设备” → 选你有的那个：
- 有N卡 → 选 CUDA (GPU)（最快）
- 是Mac M系列 → 选 MPS（苹果专用加速，效果惊艳）
- 没独显 → 选 CPU（稳定，稍慢）
- 不确定 → 选 自动检测（它会自己选最优）

切换后不用重启，点“保存设置”立即生效。

7. 常见问题急救包（5秒解决90%报错）

我们把用户反馈最多的7个问题，浓缩成“一句话答案+操作步骤”，遇到就照做：

问题现象	一句话原因	立刻解决办法
识别半天没反应，进度条不动	GPU显存不足或被占满	进“系统设置” → 点“清理GPU缓存” → 再试
识别文字全是拼音或乱码	音频格式不支持（如微信amr）	用格式工厂把音频转成WAV或MP3再试
麦克风点了没反应	浏览器没授权或用了Safari	换Chrome/Edge → 地址栏点锁形图标 → 开启麦克风权限
页面打不开，显示“无法连接”	服务没启动或端口被占	重新运行 `start_app.bat` 或 `./start_app.sh`；若报端口占用，改`--port 7861`
批量处理中途卡住	一次传了太多大文件	每批≤50个，单个文件≤100MB；大文件先用Audacity降采样到16kHz
历史记录太多，界面变慢	SQLite数据库膨胀	进“识别历史” → 拉到底 → 点“清空所有记录”（数据仅存本地，可提前备份`webui/data/history.db`）
识别结果有错字，但音频很清晰	缺少领域热词	把错字对应的正确词加进热词列表，重试

所有操作都不需要重启服务，改完即生效。

8. 进阶小技巧：让Fun-ASR真正融入你的工作流

当你熟悉基础操作后，这几个技巧能让效率再上一层楼：

快捷键提速：在任何输入框里，按 Ctrl+Enter（Win）或 Cmd+Enter（Mac）直接触发识别，不用鼠标点
历史记录当搜索引擎：在“识别历史”页，直接搜“客户”“报价”“合同”，所有含这些词的录音文字瞬间定位
导出结果直接进飞书/钉钉：CSV文件双击用Excel打开 → 全选复制 → 粘贴到飞书文档，格式自动适配
离线也能用：整个系统不联网，出差坐飞机、在保密单位、网络受限环境，照常运行

最重要的一点：它不收集你的任何数据。所有音频、文字、热词，全部存在你自己的电脑里。webui/data/history.db 就是你的私有数据库，想备份就复制，想删除就清空——完全自主。

9. 总结：你已经掌握了一套企业级语音工具

回顾一下，你刚刚完成了什么：

在自己电脑上，5分钟内部署了一个媲美云服务的语音识别系统
学会了三种核心用法：单文件识别、实时听写、批量处理
掌握了三个提效神器：热词定制、ITN规整、VAD分段
解决了90%新手会遇到的报错，有了自己的“急救手册”
理解了它为什么安全、为什么免费、为什么快——因为它就在你本地，由你完全掌控

这不是一个玩具模型，而是钉钉与通义实验室联手打磨、科哥用心封装的生产力工具。它不追求参数榜单第一，但求在你每天真实的录音、会议、教学、客服场景中，稳稳地、悄悄地，把时间还给你。

下一步，你可以：

把它设为开机自启，每天打开电脑就 ready；
用它批量处理上周所有客户语音，生成服务报告；
给团队每人装一套，统一术语、统一格式、统一效率。

真正的AI落地，从来不是炫技，而是让复杂变简单，让等待变即时，让专业变普及。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git