CLIP 简要介绍

CLIP(Contrastive Language–Image Pretraining) 是由 OpenAI 在 2021 年提出的一种视觉-语言对齐模型,核心思想是:

通过对比学习,把图像和文本映射到同一个语义空间中。

论文:Learning Transferable Visual Models From Natural Language Supervision


一、核心思想

CLIP 的训练目标非常简单但强大:

给定一批 (image, text) 对:

  • 正确配对的图像和文本 → 表示向量距离拉近
  • 错误配对的图像和文本 → 表示向量距离拉远

本质是一个 对比学习(Contrastive Learning) 目标。

公式上通常使用 InfoNCE / 对称交叉熵损失:

L = − log ⁡ exp ⁡ ( s i m ( I i , T i ) / τ ) ∑ j exp ⁡ ( s i m ( I i , T j ) / τ ) \mathcal{L} = - \log \frac{\exp(sim(I_i, T_i)/\tau)} {\sum_j \exp(sim(I_i, T_j)/\tau)} L=logjexp(sim(Ii,Tj)/τ)exp(sim(Ii,Ti)/τ)

其中:

  • I i I_i Ii 是图像 embedding
  • T i T_i Ti 是文本 embedding
  • s i m sim sim 通常是 cosine similarity
  • τ τ τ 是温度参数

二、模型结构

CLIP 由两个编码器组成:

1️⃣ 图像编码器

  • ResNet
  • 或 Vision Transformer (ViT)

2️⃣ 文本编码器

  • Transformer(类似 GPT 的结构)

最终输出:

Image → Image Encoder → image embedding
Text  → Text Encoder  → text embedding

两者被投影到同一个向量空间。


三、CLIP 能做什么?

✅ 1. Zero-shot 分类(最经典应用)

不用训练分类器,只需要写 prompt:

"a photo of a dog"
"a photo of a cat"

然后比较图像和文本 embedding 相似度。

这就是 语言作为分类器 的思想。


✅ 2. 图文检索

  • 给图找文本
  • 给文本找图

✅ 3. 作为 VLM / VLA 的视觉 backbone

你最近在看 VLM / VLA 论文(比如 VLM4VLA 那类),CLIP 通常被用作:

  • 视觉特征提取器
  • 多模态对齐初始化模型

在大模型里:

作用 解释
初始化视觉 encoder 提供强语义对齐能力
冻结 backbone 保留图文对齐能力
用作奖励模型 alignment 评估

四、CLIP 的重要意义

CLIP 的贡献非常大:

🌟 1. 用自然语言做监督

不再需要人工标注类别标签
→ 使用互联网图文对训练


🌟 2. 强 zero-shot 泛化能力

在 ImageNet 上 zero-shot 表现接近监督模型。


🌟 3. 成为多模态时代的基础模型

很多模型都是基于 CLIP 发展:

  • BLIP
  • Flamingo
  • LLaVA
  • 各类 VLA 模型

五、一句话理解

CLIP 的本质是:

用对比学习,把图像和语言对齐到同一个语义空间,让语言成为视觉的接口。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐