FireRedASR

[Paper] [Model] [Blog] [Demo] [modelscope]

FireRedASR是一个开源的工业级自动语音识别(ASR)模型家族,支持普通话、中国方言和英语,在公共普通话ASR基准测试上达到了新的最先进水平(SOTA),同时还提供了出色的歌词识别能力。

FireRedASR-AED:旨在平衡高性能和计算效率,并在基于大语言模型的语音模型中作为有效的语音表示模块。它利用基于注意力的编码器-解码器(AED)架构。

FireRedASR-AED模型结构

可以参考我的另一篇博客【FireRedASR-AED】目前性能最好的开源中文ASR模型

改造后的FireRedASR-AED-ONNX

项目参考 https://gitcode.com/yd778473278/FireRedASR-AED
模型下载 https://www.modelscope.cn/models/yangdi/FireRedASR-AED-ONNX

改造内容

ONNX转换

通过onnx原生网络构建,非PyTorch导出,目的是为了刚好的了解模型结构,为流式改造提供基础

Beam Search优化

原始PyTorch版在本未做完整的cache,导致大量的重复计算,这严重影响了CPU上的推理速度
可以节约的计算代价的包括,decoder self-attention的kv cache和encoder decoder cross-attention的kv cache
具体可以参考[decoder.py]https://gitcode.com/yd778473278/FireRedASR-AED/blob/main/fireredasr_aed_onnx/decoder.py

速度测试

速度提升38.7%
数据集AISHELL-1,共7176个文件

Method Quantization batch CER Speed CPU Core Memory(CPU/GPU)
PyTorch CPU float32 1 0.5536% 2.4939s 5 6G
ONNX CPU float32 1 0.5527% 1.5281s 4 6.2G
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐