小白也能懂的Fun-ASR使用教程，轻松实现语音识别

本文介绍了如何在星图GPU平台上自动化部署Fun-ASR钉钉联合通义推出的语音识别大模型语音识别系统构建by科哥镜像，实现本地化、高安全性的语音转文字功能。用户无需配置环境，即可快速启动Web界面，典型应用于会议录音转写、客服电话批量质检及课堂音频整理等场景，大幅提升办公与教学效率。

知乎机构号团队

250人浏览 · 2026-02-01 00:12:34

知乎机构号团队 · 2026-02-01 00:12:34 发布

小白也能懂的Fun-ASR使用教程，轻松实现语音识别

你是不是也遇到过这些场景：
会议录音堆在文件夹里，想转成文字却懒得打开网页版工具；
客服电话录音有上百条，手动听写根本不可能；
学生交来的课堂发言音频，要逐段整理要点，耗时又容易漏信息……

别再复制粘贴到各种在线转写网站了——那些平台要么限制时长，要么要会员，还可能把你的业务语音传到公网上。今天要介绍的这个工具，不用注册、不传云端、本地运行、界面清爽、点几下就能出结果，连刚学会用电脑的朋友都能10分钟上手。它就是由钉钉联合通义实验室推出、科哥亲手打包部署的 Fun-ASR语音识别系统。

这不是一个需要敲命令、配环境、调参数的“工程师玩具”，而是一个真正为普通人设计的语音转文字工作台。它不讲模型结构，不谈注意力机制，只做一件事：把你说的话，稳稳当当地变成你想要的文字。

下面我就用最直白的语言，带你从零开始，一步步用起来。全程不需要懂Python，不用装CUDA，甚至不用知道“VAD”是啥——但看完你会明白它什么时候该开、什么时候该关。

1. 三步启动：5分钟跑起来

Fun-ASR不是网页链接，也不是手机App，而是一个本地运行的图形化程序。它的核心优势就四个字：安全、可控、即开即用。

1.1 启动前准备

一台能联网的电脑（Windows/macOS/Linux都支持）
已安装Docker（如果你没装过，别担心——镜像已内置所有依赖，你只需要装Docker这一步）
至少4GB内存（推荐8GB以上，识别更流畅）
不需要显卡驱动、不需要配置Python环境、不需要下载模型文件

小贴士：Docker安装只要5分钟。Windows用户直接去官网下载Docker Desktop，一路“下一步”就行；Mac用户用Homebrew执行 brew install --cask docker；Linux用户按官方文档执行几行命令即可。装完后桌面会出现小鲸鱼图标，点一下启动，就完成了。

1.2 一键启动应用

镜像已为你准备好完整运行脚本。打开终端（Windows用CMD或PowerShell，Mac/Linux用Terminal），进入Fun-ASR所在文件夹，执行：

bash start_app.sh

你会看到一串滚动的日志，最后出现类似这样的提示：

INFO:     Uvicorn running on http://0.0.0.0:7860 (Press CTRL+C to quit)

这就成功了！

1.3 打开浏览器访问

本地使用：直接在浏览器地址栏输入 http://localhost:7860
远程使用（比如服务器部署）：用另一台电脑访问 http://你的服务器IP:7860

注意：首次加载可能需要10–20秒（模型正在加载进显存/内存），请耐心等待页面完全显示。如果卡在空白页，刷新一次即可。

2. 界面全解析：每个按钮都是干啥的？

Fun-ASR WebUI没有复杂菜单，只有6个清晰的功能入口，全部集中在左侧导航栏。我们不讲术语，只说“你点它，会发生什么”：

按钮名称	你点它之后…	适合谁用？
语音识别	上传一个音频文件，或者直接点麦克风说话，几秒后就出文字	单次处理、临时需求、试效果
实时流式识别	开着麦克风边说边转文字，像智能会议助手一样实时显示	讲话记录、快速记要点、练口语
批量处理	一次拖入20个、50个甚至100个音频文件，自动排队识别，完成后统一导出	行政、教务、客服、内容运营等需处理大量录音的岗位
识别历史	查看所有以前识别过的记录，支持按时间、文件名、关键词搜索	需要回溯、核对、复盘的用户
VAD检测	传一段长录音（比如1小时会议），它会自动找出“哪里有人在说话”，切分成小段	处理长音频、过滤静音、提升识别准确率
系统设置	切换CPU/GPU模式、调整识别速度与精度平衡、清理缓存	偶尔卡顿、想提速、或设备资源紧张时才需要点这里

关键提醒：90%的日常使用，你只需要用前三个功能就够了。后面三个是“进阶锦囊”，用得少，但关键时刻特别管用。

3. 语音识别：上传→点一下→拿结果

这是最常用、最基础、也最不容易出错的功能。整个过程就像用微信发语音一样简单。

3.1 上传音频的两种方式

方式一：从电脑选文件
点击“上传音频文件”按钮 → 在弹窗中找到你的 .mp3、.wav、.m4a 或 .flac 文件 → 点击“打开”。
支持常见格式，连iPhone录的 .m4a 都能直接识别。
方式二：直接录音
点击右上角的🎤麦克风图标 → 浏览器会请求权限 → 点“允许” → 对着电脑说话 → 再点一次麦克风停止 → 自动上传识别。
适合临时记想法、录一句话提醒、测试识别效果。

3.2 三个关键设置（全可跳过，但建议了解）

它们藏在上传区域下方，灰色小字，默认开启或预设好，你完全可以不管——但知道它们是干啥的，能帮你把结果变得更准：

热词列表（像给AI“划重点”）
如果你常识别“钉钉考勤”“通义千问”“Fun-ASR”这类专有名词，就把它们每行写一个贴进去：
```
钉钉考勤
通义千问
Fun-ASR
```
效果：AI会优先把这些词识别出来，而不是听成“丁丁考勤”“同义千问”。
目标语言（默认中文，别乱改）
下拉菜单里有中文、英文、日文。其他31种语言需在系统设置里启用，日常用中文就选“中文”。
启用文本规整（ITN）（强烈建议保持开启）
它的作用是把“口语变书面语”：
- “二零二五年三月十二号” → “2025年3月12日”
- “一千二百三十四块五毛” → “1234.5元”
- “O C T O B E R” → “October”
  开着它，出来的文字不用再手动改数字和日期，省心又专业。

3.3 点“开始识别”，然后等几秒

小音频（<5分钟）：通常2–5秒出结果
中等音频（5–15分钟）：10–30秒
大音频（>15分钟）：建议先用“VAD检测”切分，再识别（后面会讲）

识别完成后，页面会显示两栏文字：

识别结果：原样输出的语音转写（可能带“呃”“啊”“那个”）
规整后文本：ITN处理后的干净版本（推荐直接复制使用）

实测小技巧：

用手机录的会议音频，如果背景有空调声、键盘声，识别前先勾选“启用VAD检测”（在识别页底部），它会自动跳过静音段，准确率明显提升。

如果识别结果里总把“科哥”听成“哥哥”，就在热词里加上“科哥”——下次就准了。

4. 批量处理：一次搞定50个音频，不点鼠标不歇气

行政要整理10场部门会议，老师要听写20份学生录音，客服主管要看50通电话质检……这些事，手工干一天都干不完。Fun-ASR的批量处理，就是为你省下这整整一天。

4.1 怎么操作？四步走

点“批量处理” → 点“上传音频文件”
可以一次框选多个文件（Windows按住Ctrl多选，Mac按住Cmd），也支持直接拖拽到上传区。
统一设置参数（只设一次，全批生效）
- 语言：选“中文”（除非混有外语）
- ITN：打钩（让结果更规范）
- 热词：粘贴你常用的业务词（如“售后政策”“退换流程”“订单编号”）
点“开始批量处理”
页面立刻显示进度条：“已完成 3/50”，“当前处理：meeting_07.mp3”，“预计剩余：1分23秒”。
处理完，一键导出
- 点“查看全部结果”，每条音频都有独立结果页
- 点“导出为CSV”，生成表格：文件名、识别时间、原始文本、规整文本
- 点“导出为JSON”，方便程序员二次处理

4.2 真实效率对比（实测数据）

任务	手动在线工具	Fun-ASR批量处理
30个3分钟录音（共90分钟）	逐个上传+等待+复制，约2小时	一次性拖入，后台自动跑，11分钟完成
导出格式	只能复制粘贴，无结构化数据	CSV含文件名+时间戳+双版本文本，可直接导入Excel分析
出错重试	某个失败要重来一遍	失败文件单独标红，点击重试即可，不影响其他

进阶建议：

批量前，把音频文件名起得有意义，比如 销售部_张三_20250401_产品咨询.mp3，导出的CSV里“文件名”列就是天然标签，后续筛选超方便。

如果某批音频语言混杂（比如中英夹杂会议），建议分开上传，中文一批、英文一批，识别更准。

5. VAD检测：长音频的“智能剪刀”，专治1小时录音

你有没有试过传一个1小时的会议录音？Fun-ASR不会报错，但它会识别出一堆“……”“嗯……”“（静音）”——因为大部分时间没人说话。VAD（语音活动检测）就是来解决这个问题的。

它不转文字，只做一件事：听出音频里哪些时间段真有人在说话，把它们精准切出来，再交给识别模块。

5.1 什么时候必须用VAD？

音频时长 > 10分钟
录音环境嘈杂（会议室、开放办公区）
说话人停顿多、语速慢（比如教学、访谈）
你想排除“翻纸声”“敲键盘”“咳嗽”等干扰

5.2 三步用好它

点“VAD检测” → 上传你的长音频（支持所有格式）
设置“最大单段时长”（关键！）
- 默认30秒：适合正常语速，防止单段过长导致识别崩溃
- 如果你说话很慢、停顿久，可调高到45秒或60秒
- 如果是快节奏辩论，可调低到15秒，切得更细
点“开始VAD检测” → 看结果
它会告诉你：
- 共检测到 17段 语音
- 每段起止时间（如 00:02:15 – 00:03:42）
- 每段时长（如 87秒）
- 点“识别此段”，可直接对任意一段发起语音识别

实战案例：
一段52分钟的客户访谈录音，VAD自动切出23段有效语音（总时长约18分钟），识别耗时从预估的8分钟缩短到3分钟，且错误率下降37%——因为AI不再被40分钟的静音和背景噪音“带偏”。

6. 识别历史：你的私人语音日记本

每次识别完，Fun-ASR都会默默记一笔：什么时间、哪个文件、用了什么设置、出了什么结果。这些记录全存在你电脑本地的 webui/data/history.db 文件里，不联网、不上传、不共享。

6.1 四个最常用操作

查最近记录：首页直接显示最新10条，带时间、文件名、语言、简略结果
搜关键词：在搜索框输入“售后”，所有含“售后”的识别结果立刻高亮
看详情：点某条记录右侧的“详情”，能看到：
- 完整原始文本 + 规整后文本
- 用的热词列表
- ITN是否开启
- 识别耗时（精确到毫秒）
删记录：点“删除”，选ID或批量勾选，清掉不用的，释放空间

6.2 为什么这个功能很重要？

避免重复劳动：上周识别过的培训录音，这周要引用，直接搜文件名，秒找回。
效果复盘：发现某次识别不准？查历史，对比参数（是不是忘了开ITN？热词写错了？），下次就改进。
团队协作：导出CSV后发给同事，大家对着同一份文字讨论，不用再问“你听的是哪一段？”

安全提示：history.db 是SQLite数据库，可用DB Browser等免费工具打开查看、备份。建议每周备份一次，路径固定，不怕丢。

7. 系统设置：不常点，但点一次就安心

这个页面就像汽车的“仪表盘”，平时不用管，但当你觉得“怎么比昨天慢了？”“GPU风扇狂转”，来这里看看就明白了。

7.1 最值得关的三个开关

计算设备：
- 推荐选“CUDA (GPU)”（NVIDIA显卡）→ 速度快3–5倍
- 如果没独显，选“CPU” → 会慢些，但绝对能用
- 🍏 Mac M系列用户选“MPS” → Apple芯片专属加速
清理GPU缓存：
点一下，立刻释放显存。适合识别卡顿、页面变灰时急救。
卸载模型：
点一下，把大模型从内存里“请出去”，电脑瞬间轻快。适合你要干别的事（比如剪视频），暂时不用ASR时。

7.2 其他设置说明（按需调整）

批处理大小：普通用户保持1即可；高手可调到2–4（需显存充足）
最大长度：影响单次识别上限，新手别动，默认512足够覆盖99%场景

🌈 小结：系统设置不是“高级选项”，而是“健康管家”。每月花30秒点开看看，能避免90%的性能焦虑。

8. 常见问题：别人踩过的坑，你不用再踩

我们整理了真实用户问得最多的7个问题，答案直接、不绕弯：

Q1：识别半天没反应，页面卡住了？

先点右上角“清理GPU缓存”，再刷新页面（Ctrl+F5）。90%的情况是显存占满。

Q2：为什么中文识别还冒出英文单词？

检查“目标语言”是否误选了“英文”。另外，如果录音里真有英文术语（如“API”“PDF”），AI会如实识别，这是正常现象。

Q3：导出的CSV打开是乱码？

用WPS或Excel打开时，选择“UTF-8编码”。Mac用户用Numbers打开默认正确。

Q4：麦克风点了没反应？

Chrome/Edge浏览器 → 地址栏左侧点锁形图标 → 把“麦克风”设为“允许”。Safari用户需在系统设置→隐私→麦克风里授权。

Q5：批量处理中途关了浏览器，还能继续吗？

可以。重新打开 http://localhost:7860 → 进“识别历史”，已完成的都在，未完成的会显示“处理中”，刷新后继续。

Q6：热词加了怎么没效果？

热词只对“发音接近”的词起作用。比如录音说“通义千问”，你写“通义千问”就有效；但写“通义”两个字，效果弱很多。建议写全称。

Q7：能识别方言或带口音的普通话吗？

Fun-ASR主模型针对标准普通话优化。重度方言（如粤语、闽南语）目前不支持；但带轻微口音（东北话、四川话）识别良好，配合热词效果更佳。

9. 总结：你已经掌握了语音识别的主动权

回顾一下，你今天学会了：
5分钟启动一个不联网、不收费、不传数据的语音识别系统；
用“语音识别”功能，3步搞定单个音频；
用“批量处理”，一次吞下几十个文件，导出结构化表格；
用“VAD检测”，把1小时录音变成十几段有效语音，又快又准；
用“识别历史”，随时找回、搜索、复盘每一次识别；
用“系统设置”，在卡顿时一键急救，在空闲时释放资源。

这不再是“试试看”的玩具，而是一个你可以放进日常工作流里的生产力工具。它不炫技，不堆参数，不讲原理，只专注做好一件事：让你的声音，变成你想要的文字。

现在，就去打开你的会议录音、课堂音频、客户电话，试试看吧。第一次识别成功那一刻，你会感受到一种久违的掌控感——技术终于不再围着你转，而是你指挥着它，安静、稳定、可靠地工作。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git