在 Coze(扣子)工作流里处理语音转文字,推荐使用“阿里云百炼语音识别”插件,并选择其中的 Fun-ASR模型。这主要基于其准确率高、语种覆盖广、功能强大且集成方便的优势。

下面是详细的原因和使用教程,希望能给你一些参考:

🎯 为什么推荐 Fun-ASR 模型?

Fun-ASR模型(尤其是其最新版本Fun-ASR1.5)在语音识别领域表现出色,它的核心优势体现在以下几个方面:

准确率高,擅长方言与口音:在典型方言场景下,字错误率较之前下降了56.2%。目前已有5种方言的识别准确率突破90%,15种超过80%。
语种覆盖广:基于统一的大模型架构,一个模型就能无缝覆盖30种语言,以及汉语七大方言体系(如粤语、客家话等)和20余种地方口音。
多语种自由切换:无需预先设置语种标签,即可在跨语言对话场景下自动识别切换,非常适合多语言混杂的场景。
智能文本规范化:能自动为长句添加合理标点,并将口语中的数字、日期、金额、手机号等转换为标准书面格式。
专项能力优化:针对古诗词吟诵场景进行了优化,字符级准确率可达97%。
已在阿里云百炼上线:可直接通过API服务调用,方便在Coze等平台集成。
性能持续进化:Fun-ASR1.5基于MoE混合专家架构,并经过了数十万小时真实方言语音数据的训练。

🛠️ 如何在 Coze 中使用?

在你的文章里,可以按下面的步骤来写,每一步都配上截图会更直观。

1.  准备工作:获取阿里云百炼的API Key
    访问[阿里云百炼控制台](https://bailian.console.aliyun.com/),若未开通服务请先开通。
    在控制台左侧菜单找到并进入“API Key”管理页面,创建一个新的API Key,并复制保存。

    (PS:可参考文章通过阿里云百炼平台使用API调用云端大模型步骤_网页上直接使用 阿里云 大模型api-CSDN博客获取阿里云百炼的API Key)

2.  在Coze工作流中添加插件
    进入Coze的工作流编辑页面,点击`+`添加节点,在插件市场中搜索“阿里云百炼语音识别”。


    如果没找到,可能需要先在Coze的插件商店或“资源”中,通过自定义插件的方式导入。在自定义插件时,需填写上一步获取的API Key,以建立Coze与阿里云服务的连接。

3. 配置并使用Fun-ASR模型
    将插件节点添加到工作流后,在配置界面中,模型选项里选择 Fun-ASR(可能有不同版本,如Fun-ASR实时语音识别等,可根据场景选择)。


   插件的输入通常是音频文件的URL或Base64编码的音频数据。你可以将其与工作流上游节点(如文件上传节点)的输出连接起来。
    插件运行后,输出结果会是一个JSON对象,里面包含了识别出的文本。通常,文本内容在`data.text`字段中。你可以将这个输出传递给后续节点进行进一步处理。

✨ 使用场景举例

面试录音分析:用Fun-ASR将面试录音转成文本,然后通过大模型分析回答质量。
会议纪要自动生成:将会议录音一键转换成清晰的文字记录,并自动整理出待办事项。
多语言视频字幕:为包含中英文或方言的视频,生成准确的字幕文件。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐