Baichuan Omni:百川智能创新之作,7B开源多模态大语言模型开启智能新篇
Baichuan Omni:是百川智能推出的开源的7B多模态大型语言模型(MLLM),擅长同时处理和分析图像、视频、音频和文本的模态,同时提供先进的多模态交互体验和强大的性能。它提出了一种有效的多模态训练方案,从7B模型开始,经过两个阶段的多模态对齐和音频、图像、视频和文本模态的多任务微调。这种方法使语言模型能够有效地处理视觉和音频数据。在各种全模态和多模态基准测试中表现出色。
目录
引言
在人工智能的快速发展中,多模态大语言模型(MLLMs)成为了研究的热点。然而,现有的开源解决方案在多模态能力和用户交互体验方面存在明显不足。Baichuan-Omni的出现,为开源社区带来了新的希望,它是首个能够同时处理和分析图像、视频、音频和文本模态的7B开源多模态大语言模型,提供了先进的多模态交互体验和强大的性能。
一、Baichuan Omni简介
Baichuan Omni:是百川智能推出的开源的7B多模态大型语言模型(MLLM),擅长同时处理和分析图像、视频、音频和文本的模态,同时提供先进的多模态交互体验和强大的性能。它提出了一种有效的多模态训练方案,从7B模型开始,经过两个阶段的多模态对齐和音频、图像、视频和文本模态的多任务微调。这种方法使语言模型能够有效地处理视觉和音频数据。在各种全模态和多模态基准测试中表现出色。
二、模型训练的核心要素
1. 全方位模态数据构建
Baichuan-Omni的训练数据来源广泛,涵盖了开源、合成和内部标注的数据集。
- 图像数据:包括来自多个开源数据集(如PIN - 14M、MINT - 1T等)以及合成数据。合成数据一部分源于对书籍和论文的解析,另一部分则是通过训练专用模型生成的高质量图像字幕。
- 视频数据:包含多种公开资源,其文本来源主要是问答数据和字幕数据。例如,问答数据采用了NExTVideo和ActivityNet - QA等,字幕数据则有ShareGPT4Video和WebVid等,并利用GPT - 4o为YouTube视频生成了多样化的字幕。
- 音频数据:考虑到音频的多样性,从各种媒体模态中提取音频,并通过一系列数据处理步骤,包括说话人语音记录、方言识别等,同时利用内部ASR系统和多个开源模型生成多个转录版本,提高音频 - 文本对的质量。
- 文本数据:收集自网页、书籍、学术论文、代码等多个领域,并进行了选择处理,以提高数据集的多样性和质量。
- 跨模态交互数据:合成了视觉 - 音频 - 文本跨模态交互数据,如将图像 - 文本数据中的部分文本通过文本 - 语音技术转换为音频描述,以增强模型的跨模态交互能力。
2. 多模态对齐预训练
- 阶段一:多模态对齐预训练
- 图像 - 语言分支:利用Siglip - 384px作为视觉编码器,训练过程分为三个阶段。首先在第一阶段通过图像字幕任务训练视觉投影仪,建立图像与文本的初步对齐;第二阶段冻结LLM,以较小学习率训练投影仪和视觉编码器,并引入特定的高质量数据;第三阶段解冻LLM,继续更新所有模型组件的参数。
- 视频 - 语言分支:基于图像 - 语言分支预训练获得的视觉能力,使用冻结的视觉编码器和LLM骨干训练视频投影仪。采用低学习率,并通过两阶段训练方法,先利用图像 - 文本预训练数据,再逐步整合混合图像 - 文本对和视频 - 文本对,提高模型对视频的理解能力。
- 音频 - 语言分支:在视觉和视频数据上预训练的LLM基础上,引入Whisper - large - v3模型的音频编码器和新的音频投影仪。采用Conv - GMLP替代传统的池化操作,以保留更多音频信息,训练过程中冻结LLM,仅训练音频编码器和投影仪。
- 阶段二:多模态监督微调
- 利用包含超过200个不同任务、约600K对数据的开源、合成和内部标注数据集,涵盖文本、音频、图像 - 文本、视频 - 文本和图像 - 音频等模态。
- 对不同模态的数据分别进行处理,如对图像理解数据采用基于损失的过滤方法清理vFLAN数据集,并增加了一些其他操作以提高多样性和质量;对视频理解数据进行语义去重并翻译为中文;对音频理解数据通过TTS生成并进行质量控制,同时包含人类录制的音频样本,并构建了特定的ASR数据集进行监督微调。
三、模型性能的卓越表现
1. 语言性能
在MMLU、CMMLU、AGIEval和C - Eval四个综合基准测试中,Baichuan - Omni与先进的专有多模态模型(如Gemini 1.5 Pro、GPT - 4o)以及一系列有竞争力的开源LLMs和MLLMs(如VITA、MAP - Neo等)进行比较。结果显示,Baichuan - Omni在综合基准测试中显著优于开源的纯文本LLMs,在中文基准测试(如CMMLU和C - Eval)中相比开源多模态模型VITA具有明显优势,在AGIEval中也略胜一筹。
2. 图像理解
在13个代表性的视觉 - 语言基准测试中,与先进的专有多模态模型和一系列开源多模态模型(如VITA、Qwen2 - VL)进行比较。Baichuan - Omni在多个视觉任务的VQA基准测试和MCQ基准测试中全面优于VITA - 8 * 7b,与MiniCPM - Llama3 - V 2.5等开源图像专用模型相比也具有竞争力,在大多数VQA任务中表现更优,但与Qwen2 - VL相比在图像任务中仍存在性能差距。
3. 视频理解
-
通用视频理解任务(General VQA):在Perception - Test、MVBench、VideoMME和EgoSchema等基准测试中,Baichuan - Omni与先进的多模态专有模型和一系列开源多模态模型进行比较。结果显示,它在Egoschema和MVBench等基准测试中表现出与专有模型竞争的能力,在开源多模态模型中也取得了强大的性能,相比VITA在所有通用视频QA基准测试中均有优势,并且优于一系列开源模型。
-
开放式视频问答(Open - ended VQA):在ActivityNet - QA和MSVD - QA基准测试中,Baichuan - Omni在所有开源模型中表现出领先的性能(包括准确性和得分),优于专有模型Gemini 1.5 Pro,表明其在开放式问答中也非常有效。
4. 音频理解
在自动语音识别(ASR)、语音到文本翻译(S2TT)和AIR - Bench三个任务的基准测试中,与先进的基线模型(如Qwen2 - Audio - Instruct、VITA)以及经典的预训练音频语言模型(如Whisper - large - v3)进行比较。Baichuan - Omni在ASR基准测试中表现出强大的音频转录能力,在中文ASR场景中优势明显,在英文中也有良好表现;在S2TT和AIR - Bench任务中同样表现出色,例如在从英语到汉语的翻译中优于Qwen2 - Audio - Instruct,在AirBench上得分更高,展示了其生成逼真人类语音和声音的优越能力。
四、Baichuan-Omni的多元应用场景
1. 智能交互与客服优化
融合文本、图像、音频理解,为智能客服带来变革。用户无论是发送产品图片附带文字说明,还是直接语音提问,Baichuan-Omni都能精准解析,即时给予准确解答,显著提升服务效率与质量,重塑用户交互体验。
2. 教育革新辅助学习
成为学生的智能学习伴侣,助力全面学习。针对文本教材、图像图表、音频讲解等多样学习资料,它能深入浅出地答疑解惑、剖析知识要点,以多模态互动适应不同学习风格,激发学习潜能。
3. 医疗智能诊断助手
赋能医疗领域,接收患者检查报告(文本)、医学影像(图像)和口述症状(音频),综合分析后提供诊断思路和治疗建议,辅助医生决策,尤其在复杂病症中发挥重要作用,推动精准医疗发展。
4. 创意激发与设计赋能
为创意工作者注入灵感,在广告设计、故事创作等领域大显身手。依据创意主题(文本)与图片素材,生成独特创意内容,还可根据语音描述拓展情节、创作相关图像,助力创意涌现。
结语
Baichuan - Omni作为开源多模态大语言模型的重要成果,虽然在多模态融合理解方面取得了领先水平,但在各个模态的基础能力上仍有提升空间,例如增强文本提取能力、支持更长的视频理解、开发与LLMs集成的端到端TTS系统以及提高对自然环境声音的理解能力等。随着学术界和工业界的不断努力,模型模态的扩展以及能力的提升将有望使人工智能更接近通用人工智能的梦想。
相关资料
github地址:https://github.com/westlake-baichuan-mllm/bc-omni
论文地址:https://arxiv.org/pdf/2410.08565
🎯🔖更多专栏系列文章:AI大模型提示工程完全指南、AI大模型探索之路(零基础入门)、AI大模型预训练微调进阶、AI大模型开源精选实践、AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑
😎 作者介绍:我是寻道AI小兵,资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索。
📖 技术交流:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,加入技术交流群,开启编程探索之旅。
💘精心准备📚500本编程经典书籍、💎AI专业教程,以及高效AI工具。等你加入,与我们一同成长,共铸辉煌未来。
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我,让我们携手同行AI的探索之旅,一起开启智能时代的大门!
更多推荐
所有评论(0)