最近我们对正在做的产品「秒言」做了一次内部阶段性复盘。
这篇并不算产品介绍,更像是一份写给自己和团队的记录,顺手整理出来。


为什么选择语音输入方向?

语音输入并不是新方向,市面上已经有很多方案,其中大量基于本地模型。最初我们也做过尝试,但在真实的使用场景中,反复出现同一个问题:

Demo 能跑,但长期用不太行。

尤其在以下几类场景里,问题更为明显:

  • 连续长句输入

  • 专业词汇、专有名词较多

  • 不同人 / 不同时段连续使用

在这些情况下,稳定性和一致性都会显著下降。

而输入工具的特点是 容错率极低 ——
一次不准可以理解,但只要连续出现几次问题,大多数用户并不会给第二次机会,而是直接选择放弃。

这是我们最终没有选择完全本地方案的原因之一。


我们最近的工作重心是什么?

实际上,我们最近做的事情并不炫技,也没有扩展太多场景,而是回归基础体验

  1. 提升整体识别准确率

  2. 降低从说完到出字的整体延迟

对语音输入这样的工具来说,如果这两点都解决不了,那么其他优化讨论意义都不大。


最近版本有哪些变化?

在近期迭代中,我们确实看到了一些积极的改善:

  • 长句一次性输出的可用率提升

  • 专业词汇的识别误差明显减少

  • 连续使用时的结果更稳定

这些改进在 demo 层面可能不容易用一句话描述,但会直接影响用户“还会不会继续用”。


复盘带来的核心判断

这次阶段性复盘让我们在产品取舍上更明确:

  • 不急着追热点能力

  • 不为了展示“很 AI”而增加复杂度

  • 优先把基础体验做到稳定、可预期

对于输入工具来说,稳定性本身就是最大的体验。


最后的思考

这篇文章更多是一次阶段性的记录,并不意味着我们已经做得很好,但至少目前最初的判断还没有被推翻。

语音输入看起来是一个简单方向,但长期稳定可用才是核心价值。我们会继续打磨基础体验,而不是急于炫技。

如果你也在关注语音输入、AI 输入工具或交互体验设计,欢迎在评论区交流讨论。


Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐