作为创始人,聊聊我为什么要做一个“对准确率和速度不妥协”的语音输入工具
《语音输入工具的技术思考》探讨了开发PC端AI语音输入工具"秒言"的实践心得。文章指出,语音输入看似成熟实则门槛高,准确率和速度是硬性要求,云端方案优于本地模型。产品注重将语音转化为"直接可用"的文本输出,而非简单转写。现阶段聚焦稳定性而非功能堆砌,认为准确率、速度和稳定性是决定工具可用性的核心要素。作者强调基础工具的长期可用性挑战,记录开发过程中的工程实践
先说明一下背景:
秒言是我自己在做的一款 PC 端 AI 语音输入工具。
这篇不是推广贴,更像是一段阶段性的技术与产品判断记录,想写给同样对输入效率、工程现实感兴趣的人。
一、做这个产品之前,我低估了“输入”的技术门槛
在真正下场之前,我和很多人一样,觉得语音输入这件事已经是“成熟问题”。
语音转文字早就有了,
模型、方案、Demo 也不缺。
但一旦进入真实使用场景,很快就会发现:
能跑 ≠ 能用,能用 ≠ 能长期用。
尤其是输入这种高频、基础能力,对体验的容错率极低。
二、为什么准确率和速度是不可妥协的前提
在秒言的设计阶段,我们给自己定了两个硬约束:
-
准确率不过关,不上线
-
延迟明显,不进入工作流
原因很简单:
输入工具不是辅助决策工具,而是实时工具。
-
慢 300ms,用户就会犹豫
-
错几个关键字,信任就会下降
在这种场景下,没有“还可以”的空间。
三、为什么没有选择纯本地方案
这个问题被问过很多次。
从工程现实来看,本地模型当然有优势,比如可控性、离线能力。
但在长期使用中,我们发现一个问题:
输入工具需要持续演进,而不是一次性交付。
复杂表达、专业术语、多场景输入,
都需要模型不断通过真实使用数据进行校正。
这也是我们最终选择云端大模型方案的核心原因之一。
四、不是“转写”,而是“可用输出”
秒言并不只是把语音转成文字。
在工程上,我们更关注的是:
一次输入结束后,用户还需要做多少修改。
所以在处理链路中,会对输入语言做进一步处理:
-
过滤重复、停顿、语气词
-
优化断句
-
输出更偏书面的表达
目标只有一个:
尽量让结果接近“直接可用”。
五、当前阶段的取舍
到现在这个阶段,我们做的事情反而很克制:
-
不急着堆功能
-
不做“看起来很 AI”的展示
-
把更多精力放在稳定性和一致性上
因为对输入工具来说,
稳定性本身就是最重要的功能。
六、阶段性判断
从目前的实践来看,我对这个方向的判断是:
-
准确率决定能不能被信任
-
速度决定会不会被持续使用
-
稳定性决定能不能进入工作流
秒言还在持续打磨中,但至少在这些底层判断上,我们没有妥协。
写在最后
很多基础工具看起来简单,但真正难的是长期可用。
做秒言的过程,其实也是不断用工程现实修正产品判断的过程。
这篇更多是记录阶段思考,而不是结论。
如果你对语音输入、输入工具这个方向有不同看法,也欢迎交流。
更多推荐
所有评论(0)