深度学习中的CLIP介绍
深度学习中的CLIP介绍
目录
CLIP 简要介绍
CLIP(Contrastive Language–Image Pretraining) 是由 OpenAI 在 2021 年提出的一种视觉-语言对齐模型,核心思想是:
通过对比学习,把图像和文本映射到同一个语义空间中。
论文:Learning Transferable Visual Models From Natural Language Supervision
一、核心思想
CLIP 的训练目标非常简单但强大:
给定一批 (image, text) 对:
- 正确配对的图像和文本 → 表示向量距离拉近
- 错误配对的图像和文本 → 表示向量距离拉远
本质是一个 对比学习(Contrastive Learning) 目标。
公式上通常使用 InfoNCE / 对称交叉熵损失:
L = − log exp ( s i m ( I i , T i ) / τ ) ∑ j exp ( s i m ( I i , T j ) / τ ) \mathcal{L} = - \log \frac{\exp(sim(I_i, T_i)/\tau)} {\sum_j \exp(sim(I_i, T_j)/\tau)} L=−log∑jexp(sim(Ii,Tj)/τ)exp(sim(Ii,Ti)/τ)
其中:
- I i I_i Ii 是图像 embedding
- T i T_i Ti 是文本 embedding
- s i m sim sim 通常是 cosine similarity
- τ τ τ 是温度参数
二、模型结构
CLIP 由两个编码器组成:
1️⃣ 图像编码器
- ResNet
- 或 Vision Transformer (ViT)
2️⃣ 文本编码器
- Transformer(类似 GPT 的结构)
最终输出:
Image → Image Encoder → image embedding
Text → Text Encoder → text embedding
两者被投影到同一个向量空间。
三、CLIP 能做什么?
✅ 1. Zero-shot 分类(最经典应用)
不用训练分类器,只需要写 prompt:
"a photo of a dog"
"a photo of a cat"
然后比较图像和文本 embedding 相似度。
这就是 语言作为分类器 的思想。
✅ 2. 图文检索
- 给图找文本
- 给文本找图
✅ 3. 作为 VLM / VLA 的视觉 backbone
你最近在看 VLM / VLA 论文(比如 VLM4VLA 那类),CLIP 通常被用作:
- 视觉特征提取器
- 多模态对齐初始化模型
在大模型里:
| 作用 | 解释 |
|---|---|
| 初始化视觉 encoder | 提供强语义对齐能力 |
| 冻结 backbone | 保留图文对齐能力 |
| 用作奖励模型 | alignment 评估 |
四、CLIP 的重要意义
CLIP 的贡献非常大:
🌟 1. 用自然语言做监督
不再需要人工标注类别标签
→ 使用互联网图文对训练
🌟 2. 强 zero-shot 泛化能力
在 ImageNet 上 zero-shot 表现接近监督模型。
🌟 3. 成为多模态时代的基础模型
很多模型都是基于 CLIP 发展:
- BLIP
- Flamingo
- LLaVA
- 各类 VLA 模型
五、一句话理解
CLIP 的本质是:
用对比学习,把图像和语言对齐到同一个语义空间,让语言成为视觉的接口。
更多推荐
所有评论(0)