云平台一键部署【Nemotron-0.6B】NVIDIA开源的英文长语音转文本神器
英伟达开源NemotronSpeechASR模型,专为低延迟实时语音识别设计。该模型采用缓存感知架构,将已处理语音特征缓存复用,单句转录延迟仅24毫秒,有效解决长语音识别中的延迟累积问题。支持多档延迟模式灵活调整,端到端延迟控制在500毫秒内,原生支持标点符号和大小写识别。模型具备高吞吐量和低成本优势,适用于游戏语音、实时翻译、会议记录等场景,并与LLM和TTS技术协同构建完整语音智能体方案。目前

Nemotron Speech ASR 是英伟达开源的专注于低延迟、实时流式语音识别的模型。通过缓存感知架构,将已处理的语音特征缓存,仅对新音频帧进行计算,实现单句转录锁定仅需24毫秒,有效解决了传统流式模型在长语音识别中的累积延迟问题。模型支持多档延迟模式,可根据应用场景灵活调整,无需重新训练,适用于游戏语音、实时翻译、会议记录等多种场景。具备更高的吞吐量和更低的运行成本,端到端延迟控制在500毫秒以内,并原生支持标点符号和大小写。
Nemotron 的主要功能
-
低延迟实时识别:专为低延迟、实时流式场景设计,适用于对实时性要求极高的语音交互场景。
-
缓存感知架构:采用缓存感知设计,已处理的语音特征直接缓存,有效解决长语音识别中的累积延迟问题。
-
多档延迟模式:可根据不同应用场景灵活调整,无需重新训练模型,满足从极致速度到高精度的多样化需求。
-
高吞吐量与低运行成本:与传统流式模型相比,提供更高的吞吐量,显著降低生产环境的运行成本。
-
端到端低延迟:整个端到端的延迟被控制在500毫秒以内,确保语音交互的流畅性和即时性。
-
原生支持标点和大小写:模型原生支持标点符号和大小写,提升了识别结果的可读性和实用性。
-
集成语音智能体方案:与Nemotron 3 Nano 30B(LLM)和Magpie(TTS)协同工作,为构建真正的语音智能体提供了全面支持。
Nemotron 的技术原理
-
缓存感知设计:通过维护编码器状态缓存,对已处理的音频特征进行存储,新音频帧到来时直接调用缓存,从而实现极低延迟的实时处理。
-
增量计算机制:基于缓存的激活值进行增量计算,有效解决了长语音识别中的累积延迟问题。
-
动态延迟调整:支持多种延迟模式(如80ms、160ms、560ms、1.12s),用户可以在推理阶段通过参数灵活调整延迟,适应不同场景的延迟需求。
-
高效并行处理:采用优化的架构设计,显著提高吞吐量,降低生产环境的运行成本。
-
端到端优化:从音频输入到文本输出的整个流程都经过优化,满足实时语音交互的需求。
-
上下文感知解码:动态调整模型对上下文信息的利用,进一步优化识别准确率和延迟的平衡。
Nemotron 的应用场景
-
实时语音助手:为智能语音助手提供低延迟的语音识别能力,实现即时响应用户的语音指令,提升交互体验。
-
游戏语音交互:在游戏场景中,支持低延迟的语音聊天和指令识别,增强玩家之间的实时沟通和互动。
-
实时翻译:用于多语言环境下的实时语音翻译,快速将一种语言的语音内容转换为另一种语言的文字或语音,促进跨语言交流。
-
会议记录:在会议场景中,提供高精度的语音转文字功能,实时生成会议记录,提高会议效率。
-
直播互动:在直播中,为观众提供实时字幕,增强观众的参与感和互动体验。
-
客服系统:在客户服务中,快速识别用户语音问题并提供即时响应,提升客服效率和用户满意度。
huggingface:https://huggingface.co/nvidia/nemotron-speech-streaming-en-0.6b
【Nemotron-0.6B】模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验【Nemotron-0.6B】带来的精彩体验吧!
项目入口
https://open.virtaicloud.com/web/project/detail/671205957673644032
视频教程
云平台一键部署【Nemotron-0.6B】NVIDIA开源的英文长语音转文本神器
启动开发环境
进入【Nemotron-0.6B】项目主页中,点击运行一下,将项目一键克隆至工作空间,『社区项目』推荐适用的算力规格,可以直接立即运行,省去个人下载数据、模型和计算算力的大量准备时间。

配置完成,点击进入开发环境,根据项目主页介绍进行部署。

使用方法
在gemini/code中找到使用说明,选中使用说明单元格,点击运行。

等待生成local URL,右侧添加端口7860。

项目使用方法

示例展示



➫温馨提示: 完成项目后,记得及时关闭开发环境,以免继续产生费用!
智汇全球,趋动未来
『社区项目』汇聚全球智慧,是促进技术交流的宝贵平台,期待每一位AI爱好者体验一键部署功能的强大魅力。

同时,我们也热切盼望每一位码友加入,分享您的精品作品,共筑这个充满活力与创新的技术乐园。
趋动云
连接算力・连接人
更多推荐
所有评论(0)