微软开源语音识别模型——VibeVoice-ASR

VibeVoice-ASR是微软推出的统一语音转文本模型，具备多项创新功能：支持60分钟长音频单次处理，保持说话人追踪与语义连贯性；提供自定义热词功能提升专业术语识别；可生成包含说话人、时间戳和内容的结构化转录；支持50多种语言及语码转换。该模型采用MIT许可证开源，性能表现优异，适用于会议记录、访谈转录等场景。项目团队欢迎用户反馈与合作，致力于持续优化模型表现。

DisonTangor

489人浏览 · 2026-03-03 08:10:50

DisonTangor · 2026-03-03 08:10:50 发布

VibeVoice-ASR

VibeVoice-ASR 是一款统一的语音转文本模型，专为处理60分钟长音频而设计，可一次性生成包含说话人（Who）、时间戳（When）和内容（What）的结构化转录，并支持自定义热词及50多种语言。

➡️ 代码库: microsoft/VibeVoice

➡️ 演示: VibeVoice-ASR 演示

➡️ 技术报告: VibeVoice-ASR 技术报告

➡️ 微调指南: 微调

➡️ vLLM 支持: vLLM-VibeVoice-ASR

在这里插入图片描述

🔥 核心功能

🕒 60分钟单次处理:
与传统ASR模型将音频切割为短片段（常丢失全局上下文）不同，VibeVoice ASR可接受长达60分钟的连续音频输入（64K token长度内），确保整小时内的说话人追踪与语义连贯性。
👤 自定义热词:
用户可提供定制热词（如特定人名、专业术语或背景信息）引导识别过程，显著提升专业领域内容的准确率。
📝 富文本转录（人·时·事）:
模型同步完成语音识别、说话人分离和时间戳标注，输出结构化结果，明确标注谁在何时说了什么。
🌍 多语言&语码转换支持:
支持50余种语言，无需显式设置语言，原生支持语句内/间的语码转换。语言分布详见此处。

性能评估

在这里插入图片描述

安装与使用

请参阅 GitHub README。

语言分布

在这里插入图片描述

许可证

本项目采用MIT许可证授权。

联系方式

本项目由微软研究院成员开展。我们欢迎来自用户的反馈与合作。如果您有任何建议、疑问，或发现我们的技术存在意外/冒犯性行为，请通过VibeVoice@microsoft.com联系我们。
若团队收到不良行为报告或自行发现问题，我们将在此代码库中更新适当的缓解措施。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git