图片

Nemotron Speech ASR 是英伟达开源的专注于低延迟、实时流式语音识别的模型。通过缓存感知架构,将已处理的语音特征缓存,仅对新音频帧进行计算,实现单句转录锁定仅需24毫秒,有效解决了传统流式模型在长语音识别中的累积延迟问题。模型支持多档延迟模式,可根据应用场景灵活调整,无需重新训练,适用于游戏语音、实时翻译、会议记录等多种场景。具备更高的吞吐量和更低的运行成本,端到端延迟控制在500毫秒以内,并原生支持标点符号和大小写。

Nemotron 的主要功能

  • 低延迟实时识别:专为低延迟、实时流式场景设计,适用于对实时性要求极高的语音交互场景。

  • 缓存感知架构:采用缓存感知设计,已处理的语音特征直接缓存,有效解决长语音识别中的累积延迟问题。

  • 多档延迟模式:可根据不同应用场景灵活调整,无需重新训练模型,满足从极致速度到高精度的多样化需求。

  • 高吞吐量与低运行成本:与传统流式模型相比,提供更高的吞吐量,显著降低生产环境的运行成本。

  • 端到端低延迟:整个端到端的延迟被控制在500毫秒以内,确保语音交互的流畅性和即时性。

  • 原生支持标点和大小写:模型原生支持标点符号和大小写,提升了识别结果的可读性和实用性。

  • 集成语音智能体方案:与Nemotron 3 Nano 30B(LLM)和Magpie(TTS)协同工作,为构建真正的语音智能体提供了全面支持。

Nemotron 的技术原理

      • 缓存感知设计:通过维护编码器状态缓存,对已处理的音频特征进行存储,新音频帧到来时直接调用缓存,从而实现极低延迟的实时处理。

      • 增量计算机制:基于缓存的激活值进行增量计算,有效解决了长语音识别中的累积延迟问题。

      • 动态延迟调整:支持多种延迟模式(如80ms、160ms、560ms、1.12s),用户可以在推理阶段通过参数灵活调整延迟,适应不同场景的延迟需求。

      • 高效并行处理:采用优化的架构设计,显著提高吞吐量,降低生产环境的运行成本。

      • 端到端优化:从音频输入到文本输出的整个流程都经过优化,满足实时语音交互的需求。

      • 上下文感知解码:动态调整模型对上下文信息的利用,进一步优化识别准确率和延迟的平衡。

      Nemotron 的应用场景

      • 实时语音助手:为智能语音助手提供低延迟的语音识别能力,实现即时响应用户的语音指令,提升交互体验。

      • 游戏语音交互:在游戏场景中,支持低延迟的语音聊天和指令识别,增强玩家之间的实时沟通和互动。

      • 实时翻译:用于多语言环境下的实时语音翻译,快速将一种语言的语音内容转换为另一种语言的文字或语音,促进跨语言交流。

      • 会议记录:在会议场景中,提供高精度的语音转文字功能,实时生成会议记录,提高会议效率。

      • 直播互动:在直播中,为观众提供实时字幕,增强观众的参与感和互动体验。

      • 客服系统:在客户服务中,快速识别用户语音问题并提供即时响应,提升客服效率和用户满意度。

      huggingface:https://huggingface.co/nvidia/nemotron-speech-streaming-en-0.6b

      【Nemotron-0.6B】模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验【Nemotron-0.6B】带来的精彩体验吧!

      项目入口

      https://open.virtaicloud.com/web/project/detail/671205957673644032

      视频教程


      云平台一键部署【Nemotron-0.6B】NVIDIA开源的英文长语音转文本神器

      启动开发环境

      进入【Nemotron-0.6B】项目主页中,点击运行一下,将项目一键克隆至工作空间,『社区项目』推荐适用的算力规格,可以直接立即运行,省去个人下载数据、模型和计算算力的大量准备时间。

      图片

      配置完成,点击进入开发环境,根据项目主页介绍进行部署。

      图片

      使用方法

      在gemini/code中找到使用说明,选中使用说明单元格,点击运行。

      图片

      等待生成local URL,右侧添加端口7860。

      图片

      项目使用方法

      图片

      示例展示

      图片

      图片

      图片

      ➫温馨提示: 完成项目后,记得及时关闭开发环境,以免继续产生费用!

      智汇全球,趋动未来

      『社区项目』汇聚全球智慧,是促进技术交流的宝贵平台,期待每一位AI爱好者体验一键部署功能的强大魅力。

      图片

      同时,我们也热切盼望每一位码友加入,分享您的精品作品,共筑这个充满活力与创新的技术乐园。

      趋动云

      连接算力・连接人

      Logo

      腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

      更多推荐