林俊旸的离职并未阻挡Qwen系列的前行步伐,近日,千问团队重磅推出新一代原生全模态大模型Qwen3.5-Omni,集文本、图片、音频、视频的理解与生成于一身,以创新架构打破多模态技术瓶颈,重新定义AI交互的全新可能,更值得期待的是,这款实力出众的全模态模型即将登陆OPE Platform,为用户带来更便捷、高效的使用体验。

过去两年,多模态成为大模型赛道的核心热点,但多数模型的多模态能力本质是“模块拼接”——语音转文字、文字转语音、图像与视频各走独立通道,信息在模态转换中不断损耗,难以实现真正的跨模态协同。Qwen3.5-Omni跳出这一局限,采用创新的Thinker-Talker架构,让所有模态在同一模型内原生处理,Thinker负责跨模态深度推理,Talker负责实时语音输出,两者共享同一套表征空间,从根源上解决了信息损耗问题。

强大的架构支撑,让Qwen3.5-Omni交出了亮眼答卷:在音频、视频、推理和交互相关的215项子任务中斩获SOTA(性能最佳)成绩,音频理解、推理、识别、翻译、对话等核心能力全面超越Gemini-3.1 Pro,同时视觉与文本能力保持同尺寸Qwen3.5的高水平,实现全维度无短板。

Qwen3.5-Omni的核心能力,体现在“看见、听懂、能创造”的全场景适配中。在视觉与视频理解上,它能多管齐下处理视频素材,自动切片、标注时间戳,精准识别画面中的人物、动作与空间关系,同时解析音轨中的背景音效和对话内容,无论是《舌尖上的中国》这类纪录片的细粒度结构化描述,还是电影片段中多角色、多镜头的复杂解析,都能轻松胜任,在内容合规审查等场景中,更能自动输出违规类型、风险等级的结构化报告,大幅降低人工成本。

在语音交互领域,Qwen3.5-Omni的表现同样惊艳。它支持113种语言及方言的语音识别,36种语言及方言的语音生成,即便小众的毛利语、海南方言也能精准识别。更具优势的是其原生语义打断功能,能精准区分用户的有意提问与无意义背景音,与人共读论文时可随时插话,交互体验如真人对话般自然,搭配ARIA技术,生成的语音音色稳定、语调自然,还能自主调用工具回应实时性问题。

最令人意外的是其涌现的Audio-Visual Vibe Coding能力,用户只需展示游戏视频或产品原型演示,模型就能观察画面与音效,直接生成可运行的代码,从游戏开发到前端原型搭建,真正实现“动动嘴、看视频就能编程”。这种能力并非刻意训练,而是模型在超过1亿小时音视频数据原生预训练中自然涌现,彰显了其强大的跨模态协同能力。

支撑这一切的,是Qwen3.5-Omni的Hybrid-Attention MoE架构,所有模态的token在同一潜空间内联合训练,让文字、图像、声音实现无损耗协同,彻底解决了传统多模态模型的痛点。

如今,这款实力顶尖的原生全模态大模型即将登陆OPE Platform。届时,用户无需切换多平台、无需复杂配置,即可在OPE Platform轻松调用Qwen3.5-Omni的全部能力,搭配平台充足的Token额度与零门槛部署优势,无论是个人用户体验全模态交互,还是企业用户实现场景落地,都能获得高效、便捷的解决方案,解锁AI全模态应用的全新价值,敬请期待Qwen3.5-Omni在OPE Platform的正式上线。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐