想象你在向朋友描述一部电影。你不会只说"画面很美"或者只说"音乐很棒",而是会综合视觉、听觉、剧情等多方面信息来表达感受。

多模态学习就是让AI从"单一感官"进化到"多感官协同",像人类一样能够同时理解和关联图像、文字、声音等不同类型的信息。

但要实现这个目标,必须解决两个核心问题:多模态对齐和多模态融合。

图片

一、多模态对齐

什么是多模态对齐MultiModal Alignment

简单说就是让AI知道"这个模态对应那个模态"。

  • 图片中有一只橙色的猫

  • 文字描述:"一只可爱的橘猫在晒太阳"

  • 对齐就是让AI明白:图片中的那只猫 = 文字中的"橘猫"

多模态对齐使不同模态的数据(例如图像、文本、音频等)特征、语义或表示层面上能够达到匹配与对应

Multimodal Machine Learning: A survey and taxonomy accepted in TPAMI 2018 |  MultiComp

为什么多模态对齐这么难?

不同模态的信息表示方式完全不同:

  • 图片:像素值组成的矩阵,比如 [255, 128, 64] 表示橙色

  • 文字:符号序列,比如 "橘猫" 两个汉字

  • 声音:频率和振幅的波形

    这就像让一个只会中文的人和一个只会英文的人交流,需要找到共同的"语言"。

    GRAM: Gramian Multimodal Representation Learning and Alignment

    多模态对齐的核心方法是什么?

    图片

    1. 对比学习(CLIP的突破)

    想象教小孩认识动物的过程:

    • 拿出猫的图片和"猫"字卡片,告诉孩子这两个是一对

    • 拿出狗的图片和"狗"字卡片,告诉孩子这两个是一对

    • 重复千万次,孩子就学会了图片和文字的对应关系

    CLIP做的事情类似:通过大量配对数据学习对应关系

    结果:AI学会了一个"翻译器",能把图片和文字都翻译成同一种"内部语言"。

    2. 共享表征空间

    把不同模态的信息都映射到同一个向量"空间"

    ​​​​​​​在这个共享空间里,相关的图片和文字会靠得很近,无关的会离得很远。

    Multi-modal ML with OpenAI's CLIP | Pinecone

    二、多模态融合

    什么是多模态融合(MultiModal Fusion

    多模态对齐解决了"对应关系",而多模态融合解决的是"怎么结合"。

    就像做菜,有了食材(对齐后的多模态信息),还需要知道怎么搭配烹饪(融合策略)。

    多模态融合能够充分利用各模态之间的互补优势,将来自不同模态的信息整合成一个稳定且全面的多模态表征。

    Multimodal Models and Fusion - A Complete Guide | Medium

    三种多模态融合策略是什么?

    图片

    1. 早期融合:直接混合

    思路:在处理的早期阶段就把不同模态信息混合在一起

    ​​​​​​​

    优点:简单直接,能捕捉模态间的底层交互

    缺点:如果某个模态质量很差,会影响整体效果

    类比:就像做沙拉时把所有蔬菜直接混在一起

    实际应用:视频理解系统

    2. 晚期融合:分别处理再结合

    思路:让每个模态独立处理,最后把结果综合

    ​​​​​​​

    优点:稳定性好,单个模态的问题不会影响其他模态

    缺点:可能错过模态间的深层互动信息

    类比:就像分别烧几个菜,最后摆在一张桌子上

    实际应用:医疗诊断、金融风控、内容审核

    3. 交叉融合:动态交互

    思路:让不同模态在处理过程中互相"询问"和"帮助"

    这就是注意力机制的威力:

    ​​​​​​​​​​​​​​

    优点:能捕捉复杂的模态间关系,效果最好

    缺点:计算复杂,需要更多资源

    类比:就像炒菜时根据味道随时调整调料

    实现机制:交叉注意力网络​​​​​​​

    三、统一架构:Transformer

    为什么Transformer架构这么适合多模态学习?

    Vision-language models (VLMs), explained (pt. 1)

    1. 统一的Token表示

    Transformer把一切都当作"token"处理:

    这样,图片和文字就用统一的方式来处理了!

    2. 自注意力机制实现完美交互

    注意力机制让每个token都能"看到"并"询问"其他所有token:

    这就是跨模态的动态交互!

    3. 位置编码处理不同的"顺序"
    • 文字有前后顺序:我 → 喜欢 → 这只 → 猫

    • 图片有空间位置:左上角 → 右上角 → 左下角 → 右下角

    • 音频有时间顺序:第1秒 → 第2秒 → 第3秒

    Transformer的位置编码能同时处理这些不同的"排列方式"。

    Popular Vision-Language Models: What Are VLMs?

    以GPT-4V为例,来看看现代多模态模型的工作流程

    20 Images Later, GPT-4V is super GENIUS!!!

    Vision Language Models Explained

    多模态学习让AI具备"多感官协同"能力,其技术核心围绕两个递进的问题展开。

    首先是对齐问题:要让AI理解不同模态信息的对应关系。就像教孩子认识世界一样,需要建立图片中的猫与文字"猫"之间的联系。CLIP等模型通过对比学习,将图像、文字等异构信息投影到统一表征空间,让相关内容聚集。

    解决了对应关系后,接下来是融合问题:如何有效整合多模态信息。这里有三种策略:早期融合简单直接但容易受单模态质量影响;晚期融合稳定可靠却可能错失深层关联;交叉融合通过动态交互获得最佳效果,但计算更复杂。

    Transformer架构的出现为多模态学习提供了理想的统一框架。它将所有模态统一token化处理,让图片、文字能够"说同一种语言",再通过自注意力机制实现跨模态的动态交互。这种统一建模的思路推动了GPT-4V等新一代多模态AI的重大突破。

    从技术演进看,多模态学习正在从简单的特征拼接向深度语义理解转变,统一建模已成为这个领域的主流发展趋势。

    日拱一卒,让大脑不断构建深度学习和大模型的神经网络连接。

    另外我们打磨了一套的 AI人工智能入门到实战学习路线(已经迭代过13次),包含计算机视觉、机器学习、深度学习和自然语言处理等等,还会新增热门技术点,根据规划好的路线学习只需4-6个月左右(很多同学通过学习已经发表了 sci 二区及以下、ei会议等级别论文)【也能带着打天池、kaggle等竞赛】

    能够提升大家这些科研能力:

    • AI+项目的认知能力
    • 编程基础(环境基础、语言基础、各种数据库的调用基础)
    • AI+相关机器学习/深度学习的底层原理
    • 其中针对你的方向的算法的搭建、训练和优化能力
    • 就是结合你自己的任务场景做项目的复现能力
    • 最后就是做自己项目的能力以及实现独立实现项目提升能力

    另外如果你想发高区论文的话我们也有对应的指导方式,大家需要的话可以添加助教老师,通过后咨询即可!欢迎大家前来咨询!

    Logo

    腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

    更多推荐