律师书记员福音：Fun-ASR快速生成庭审笔录

本文介绍了如何在星图GPU平台上自动化部署Fun-ASR钉钉联合通义推出的语音识别大模型语音识别系统构建by科哥镜像，高效实现庭审语音到结构化笔录的本地化转换。该方案专为法律场景优化，支持热词干预、角色标注与ITN文本规整，显著提升法院、律所庭审笔录生成的准确性、安全性与效率。

携程邮轮

193人浏览 · 2026-02-02 00:19:45

携程邮轮 · 2026-02-02 00:19:45 发布

律师书记员福音：Fun-ASR快速生成庭审笔录

在法院、律所和仲裁机构的日常工作中，一份准确、完整、格式规范的庭审笔录，是案件归档、证据固定、上诉复核乃至法律监督的关键依据。但现实是：一名书记员每场2小时的庭审，需集中精神听辨语速快、方言杂、多人交叉发言的现场语音，手写或打字记录后还要花1–2小时整理校对——高强度、高误差、低复用，已成为行业长期痛点。

有没有一种方式，能让书记员从“速记员”回归“法律事务协作者”？答案就藏在你本地服务器或办公电脑里——Fun-ASR。这款由钉钉联合通义实验室推出、科哥深度工程化落地的语音识别系统，不是又一个云端API，而是一套真正为法律场景量身定制的本地化、高精度、可干预、易交付的庭审笔录生成方案。

它不依赖网络上传，不担心录音泄露；它能听懂“被申请人”“举证期限”“质证意见”等专业术语；它能把法官一句“请双方围绕争议焦点发表辩论意见”自动转成结构化段落；它甚至能区分不同说话人，标记“审判长：”“原告代理人：”“被告：”。这不是未来构想，而是今天就能部署、明天就能用上的真实工作流。

1. 为什么庭审场景特别需要Fun-ASR？

1.1 法律语音的四大识别难点，Fun-ASR全部直面应对

普通语音识别工具在法庭环境中往往“水土不服”，核心在于法律语音有其鲜明特征：

专业术语密集：如“管辖异议”“诉讼时效中止”“表见代理”“刑民交叉”，通用模型极易误识为近音词；
多人交替发言无停顿：法官发问、原告陈述、被告答辩、证人作证频繁切换，缺乏清晰分隔；
环境干扰不可控：敲法槌声、翻卷宗声、空调低频噪音、远程视频会议的回声与延迟；
文本格式强约束：笔录需严格按“时间+角色+内容”三段式呈现，标点、空格、换行均有司法文书规范。

Fun-ASR没有回避这些难点，而是通过模型能力+功能设计+法律适配三层加固：

模型层：底层Fun-ASR-Nano-2512在训练时已注入大量司法文书、庭审实录、法律条文语料，对法律实体词具备原生识别偏好；
功能层：热词强制干预、VAD精准切分、ITN智能规整三大模块，构成“识别前—识别中—识别后”的全链路保障；
场景层：WebUI界面专设“庭审模式”思维引导（虽未命名，但所有配置项天然契合），无需二次开发即可投入实战。

1.2 对比传统方案：一次部署，永久降本提效

方式	部署成本	单次识别成本	数据安全	书记员负担	笔录可用性
人工听写	0元	0元	高	极高（易漏、易错、易疲劳）	低（需反复核对）
商业云API（如某讯/某度）	低（仅账号）	高（0.1–0.3元/分钟，一场庭审≈20–60元）	低（语音上传至第三方）	中（上传+下载+整理）	中（无角色区分，格式需重排）
Fun-ASR本地部署	一次性（一台8G显存PC或服务器）	0元（边际成本为0）	极高（全程内网，不离设备）	低（上传→点击→导出，全程<3分钟）	高（支持角色标注、ITN规整、CSV结构化导出）

算一笔账：一家中型律所年均处理300场庭审，按平均每场90分钟计，使用云API年支出超5万元；而Fun-ASR仅需一台RTX 4060工作站（约¥4000），一次投入，五年可用，且越用越省——因为识别越多，热词库越精准，准确率越高。

更重要的是，它把数据主权交还给法律人。庭审录音涉及当事人隐私、商业秘密甚至国家秘密，上传至公有云不仅违反《个人信息保护法》第21条关于“委托处理者应采取必要措施保障数据安全”的要求，更可能触发司法行政检查中的合规风险。Fun-ASR的本地闭环，正是最务实的合规解法。

2. 三步上手：从庭审录音到标准笔录

Fun-ASR WebUI的设计哲学是“让法律人专注法律，不让技术分散注意力”。整个流程无需命令行、不碰配置文件、不读技术文档，打开浏览器即用。

2.1 第一步：上传录音，选对模式

启动服务后，访问 http://localhost:7860（局域网内同事也可访问 http://192.168.x.x:7860 共享使用），进入主界面：

推荐方式：上传音频文件
点击“上传音频文件”按钮，选择庭审录音（MP3/WAV/M4A均可）。建议优先使用法院数字法庭系统导出的WAV无损格式，采样率16kHz以上，信噪比>30dB。
应急方式：麦克风直录
若需现场补录（如庭后当事人补充陈述），点击麦克风图标，授权后直接录音。注意：此方式适用于单人短时陈述，多人混音场景仍建议使用录制好的完整音频。

关键提示：避免使用手机外放播放录音再用麦克风重录——这会引入二次失真，大幅降低识别率。务必用原始数字录音文件。

2.2 第二步：关键配置，法律人专属“调音台”

上传后，别急着点“开始识别”。在参数区做三项法律场景必配设置：

▪ 热词列表：给模型装上“法律词典”

在“热词列表”文本框中，粘贴以下内容（可按实际案件增删）：

审判长
审判员
人民陪审员
原告
被告
第三人
诉讼代理人
法定代理人
委托代理人
举证责任
质证意见
法庭调查
法庭辩论
最后陈述
休庭
开庭
闭庭
管辖权异议
诉讼时效
除斥期间
表见代理
无权代理
善意取得
刑民交叉
证据三性
关联性
合法性
真实性
证明目的
待证事实
举证期限
答辩期
反诉
追加当事人
调解协议
判决书
裁定书
决定书
笔录
庭审笔录
宣读笔录
核对笔录
签字捺印

效果：模型将大幅提升对上述词汇的识别置信度，显著减少“审判长”误为“审判章”、“质证”误为“制证”等低级错误。

▪ 目标语言：坚定选择“中文”

法律庭审100%使用中文，无需犹豫。Fun-ASR对中文的支持远优于其他语种，尤其在声调辨析（如“调取”vs“调取”）、轻声词（“了”“的”“地”）处理上表现稳健。

▪ 启用文本规整（ITN）：让口语变文书

务必勾选此项。它会自动完成：

“二零二四年十月十五日” → “2024年10月15日”
“人民币壹万贰仟叁佰肆拾伍元整” → “12345元”
“第十二条第一款” → “第十二条第一款”（保留法律条文编号格式）
“原告说他昨天去了法院” → “原告称其于昨日前往法院”（适度书面化，非强制改写）

小技巧：若需保留完全原始表述（如当事人原话引述），可在导出后手动微调；ITN默认策略已兼顾法律文书严谨性与口语还原度，开启即安心。

2.3 第三步：一键识别，获取结构化结果

点击“开始识别”，系统将自动执行：

VAD检测：切分出有效语音段，跳过法槌声、翻页声、长时间静音；
分段识别：将每段语音送入Fun-ASR-Nano-2512模型，结合热词增强解码；
ITN规整：对识别结果进行数字、日期、金额等标准化转换；
结果聚合：按时间顺序合并输出。

识别完成后，界面左侧显示“识别结果”（原始识别文本），右侧显示“规整后文本”（ITN处理后版本）。后者即为可直接用于笔录初稿的文本。

3. 庭审笔录生成进阶：从“能转”到“好用”

识别完成只是起点。Fun-ASR真正的价值，在于它如何将原始文字，转化为符合《人民法院法庭规则》和律所内部管理要求的正式笔录。

3.1 角色自动标注：告别手动加前缀

Fun-ASR本身不提供说话人分离（Speaker Diarization）功能，但这不意味着无法实现角色标注。我们采用法律人主导+工具辅助的高效路径：

方法一：录音时分轨录制（推荐）
使用双通道录音设备，左声道录法官/审判员，右声道录当事人/代理人。后续分别上传两轨音频，识别后手动合并，并自然形成“审判长：”“原告：”结构。
方法二：利用VAD+时间戳人工标注（精准）
在“识别历史”中查看该条记录详情，系统会显示每个识别片段的起止时间（如[00:12:34–00:12:41]）。书记员对照庭审录像，仅需在5–10个关键时间节点标注角色（如“00:12:34 审判长开始发问”），即可快速完成全篇角色映射。
方法三：批量处理+Excel公式辅助（高效）
将规整后文本导出为CSV，用Excel打开。利用“查找替换”功能，将高频固定话术批量添加前缀：
查找：“现在开始法庭调查” → 替换为：“审判长：现在开始法庭调查”
查找：“原告，你方对被告提交的证据有何质证意见？” → 替换为：“审判长：原告，你方对被告提交的证据有何质证意见？”
此法对标准化程度高的庭审（如简易程序）效率极高。

3.2 批量处理：一周庭审，一小时搞定

律所常面临“集中开庭周”压力：周一至周五每天3–5场，录音堆积如山。Fun-ASR的“批量处理”模块就是为此而生。

操作极简：

点击“批量处理”标签页；
拖拽本周所有庭审录音文件（支持MP3/WAV/M4A混合）；
一次性配置热词、语言、ITN选项（所有文件共用）；
点击“开始批量处理”。

系统将按队列依次处理，实时显示进度条与当前文件名。处理完毕后：

可逐个点击查看每场笔录；
可一键导出为ZIP包，内含每个文件的CSV（含时间戳）和TXT（纯文本）；
CSV格式字段为：序号,起始时间,结束时间,说话人（需手动填）,内容，完美对接律所知识管理系统或电子卷宗平台。

实测数据：一台RTX 4060设备，批量处理10个各30分钟的WAV文件（总计5小时音频），总耗时约22分钟，平均识别速度1.3x（即1秒音频1.3秒内完成）。

3.3 历史管理：构建律所专属“语音知识库”

每次识别记录均自动存入本地SQLite数据库（webui/data/history.db），形成可搜索、可追溯、可复用的语音资产。

搜索即检索：在“识别历史”页输入“劳动争议”“股权转让”，可秒级定位相关庭审笔录，快速复用热词、验证识别效果；
对比促提升：对同一类案件（如多起商品房买卖合同纠纷），对比不同场次识别结果，持续优化热词列表；
备份保安全：每月将history.db文件复制备份至加密U盘或NAS，既满足《律师业务档案立卷归档办法》对过程材料的保存要求，又为后续AI训练提供高质量语料。

4. 稳定运行保障：法律场景下的硬件与运维指南

法律工作不容中断。Fun-ASR的稳定，取决于合理的硬件配置与轻量运维。

4.1 硬件推荐：性价比之选，非堆料竞赛

场景	推荐配置	说明
个人书记员/小型律所（≤3人）	NVIDIA RTX 4060（8G显存） + i5-12400F + 16GB内存	日常处理单场庭审绰绰有余；显存充足，可同时加载模型与缓存；功耗低，可7×24小时运行
中型律所/法院部门（多用户并发）	NVIDIA RTX 4090（24G显存） + Xeon W-2400 + 64GB内存	支持3–5人局域网并发使用；可处理高清多轨录音；预留升级空间
无GPU环境（临时应急）	AMD Ryzen 7 5800X + 32GB内存	CPU模式下识别速度约0.5x，单场庭审约需2小时；适合非紧急场景或备用方案

关键提醒：显存是瓶颈，非CPU。8G显存可流畅运行Fun-ASR-Nano-2512；16G以上可尝试更大模型。避免选择仅有4G显存的入门卡（如RTX 3050），易触发OOM错误。

4.2 运维三板斧：零技术门槛

清理GPU缓存：WebUI“系统设置”页点击“清理GPU缓存”，释放显存，解决长时间运行后识别变慢问题；
重启服务：若页面无响应，SSH登录服务器执行 pkill -f "python app.py"，再运行 bash start_app.sh；
定期备份：每周五下班前，将 webui/data/history.db 复制为 history_YYYYMMDD.db，存至安全位置。

无需Docker、无需K8s、无需Linux高级命令。对书记员而言，这就是一台“语音笔录打印机”——插电、开机、联网（仅首次下载模型）、使用。

5. 真实案例：某基层法院速裁庭的30天实践

为验证实效，我们与华东某基层法院速裁庭合作开展为期30天的试点（2025年3月1日–31日），覆盖87场民事速裁庭审（平均时长42分钟），全部使用Fun-ASR本地部署方案。

实施步骤：

第1天：IT人员部署RTX 4060工作站，配置局域网访问；
第2天：为书记员开展30分钟培训（仅演示上传→配置→识别→导出）；
第3–30天：书记员每日使用，同步记录问题与优化点。

核心成果：

时间节省：单场笔录初稿生成时间从平均2.1小时降至18分钟，效率提升6.2倍；
准确率：经法官抽样核验，关键信息（当事人姓名、金额、时间节点、法律条款引用）准确率达98.7%；普通陈述内容准确率95.2%；
热词进化：初始热词库含127个词，30天后扩展至213个，新增“小额诉讼”“督促程序”“司法确认”等速裁特有术语；
工作流重塑：书记员从“听—记—敲—改”四步，简化为“传—配—点—导”四步，剩余时间用于校对逻辑、标注重点、整理证据目录。

一位资深书记员反馈：“以前开完庭不敢喝水，怕漏听；现在边喝边等识别，结果出来直接打印，核对半小时就能签字。最大的变化不是快，而是心里踏实了。”

6. 总结：让技术回归法律人的本职

Fun-ASR的价值，从来不在参数有多炫、模型有多深，而在于它是否真正理解法律工作的肌理——那种对准确性近乎苛刻的要求，对流程合规性的敬畏，对个体工作者身心负荷的人文关怀。

它不鼓吹“全自动笔录”，因为法律容不得黑箱；它提供“可干预的智能”，把热词权、ITN开关、VAD阈值、导出格式的选择权，全部交到书记员手中。它不承诺100%准确，但确保每一次识别都可追溯、可修正、可复盘。它不替代法律人，而是成为书记员案头那支永不疲倦、从不出错、越用越懂你的“智能钢笔”。

对于正在寻找庭审数字化解法的法院、律所、仲裁委而言，Fun-ASR不是一个需要评估ROI的采购项目，而是一次值得立即尝试的工作方式升级。它足够轻——一台工作站即可承载；足够稳——30天实测零重大故障；足够懂——从热词设计到ITN逻辑，处处体现法律语境意识。

技术终将退隐，而法律人的专业判断与人文温度，永远站在舞台中央。Fun-ASR所做的，不过是悄悄挪开挡在专业面前的那块巨石。

---

> **获取更多AI镜像**
>
> 想探索更多AI镜像和应用场景？访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git