先说明一下背景:

秒言是我自己在做的一款 PC 端 AI 语音输入工具。

这篇不是推广贴,更像是一段阶段性的技术与产品判断记录,想写给同样对输入效率、工程现实感兴趣的人。


一、做这个产品之前,我低估了“输入”的技术门槛

在真正下场之前,我和很多人一样,觉得语音输入这件事已经是“成熟问题”。

语音转文字早就有了,

模型、方案、Demo 也不缺。

但一旦进入真实使用场景,很快就会发现:

能跑 ≠ 能用,能用 ≠ 能长期用。

尤其是输入这种高频、基础能力,对体验的容错率极低。


二、为什么准确率和速度是不可妥协的前提

在秒言的设计阶段,我们给自己定了两个硬约束:

  • 准确率不过关,不上线

  • 延迟明显,不进入工作流

原因很简单:

输入工具不是辅助决策工具,而是实时工具。

  • 慢 300ms,用户就会犹豫

  • 错几个关键字,信任就会下降

在这种场景下,没有“还可以”的空间。


三、为什么没有选择纯本地方案

这个问题被问过很多次。

从工程现实来看,本地模型当然有优势,比如可控性、离线能力。

但在长期使用中,我们发现一个问题:

输入工具需要持续演进,而不是一次性交付。

复杂表达、专业术语、多场景输入,

都需要模型不断通过真实使用数据进行校正。

这也是我们最终选择云端大模型方案的核心原因之一。


四、不是“转写”,而是“可用输出”

秒言并不只是把语音转成文字。

在工程上,我们更关注的是:

一次输入结束后,用户还需要做多少修改。

所以在处理链路中,会对输入语言做进一步处理:

  • 过滤重复、停顿、语气词

  • 优化断句

  • 输出更偏书面的表达

目标只有一个:

尽量让结果接近“直接可用”。


五、当前阶段的取舍

到现在这个阶段,我们做的事情反而很克制:

  • 不急着堆功能

  • 不做“看起来很 AI”的展示

  • 把更多精力放在稳定性和一致性上

因为对输入工具来说,

稳定性本身就是最重要的功能。


六、阶段性判断

从目前的实践来看,我对这个方向的判断是:

  • 准确率决定能不能被信任

  • 速度决定会不会被持续使用

  • 稳定性决定能不能进入工作流

秒言还在持续打磨中,但至少在这些底层判断上,我们没有妥协。


写在最后

很多基础工具看起来简单,但真正难的是长期可用。

做秒言的过程,其实也是不断用工程现实修正产品判断的过程。

这篇更多是记录阶段思考,而不是结论。

如果你对语音输入、输入工具这个方向有不同看法,也欢迎交流。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐