CVPR 2024 | Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach
CVPR | Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach
论文题目:Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach
发表出处:CVPR (IEEE/CVF Conference on Computer Vision and Pattern Recognition)
作者机构:Mir Rayat Imtiaz Hossain 等 (不列颠哥伦比亚大学, Vector Institute, Ontario Tech University 等)
关键词:Generalized Few-shot Segmentation (GFSS), Visual Prompting, Transformer, Causal Attention, Transductive Learning
1. 🚀 省流版摘要 (TL;DR)
本文提出了一种针对广义少样本分割 (GFSS) 的新方法。不同于传统的元学习(Meta-learning)路线,作者利用视觉提示(Visual Prompting) 技术来微调 Transformer 解码器。
核心创新在于:
- 设计了一套多尺度 Transformer 解码器架构,通过学习到的视觉 Prompt 来指导分割。
- 引入了单向因果注意力机制 (Novel-to-Base Causal Attention),让新类别的 Prompt 能从基类(Base)Prompt 中获益,同时不干扰基类性能。
- 提出了一种直推式提示微调 (Transductive Prompt Tuning) 策略,利用未标记的测试数据进一步优化 Prompt。
结果:在 COCO-20 和 PASCAL-5数据集上取得了 SOTA 性能,且推理速度快,无需复杂的元训练过程。
2. 🧐 背景与痛点 (Motivation)
-
现有问题:
传统的少样本分割(Few-shot Segmentation)通常只关注新类别(Novel classes)的性能,忽略了基类(Base classes)。而广义少样本分割 (GFSS) 要求模型在学习新类的同时,不遗忘基类,这对模型提出了更高要求。 -
现有方法的局限:
- 大多数方法依赖元学习 (Meta-learning),训练复杂且对领域偏移敏感。
- 现有的 Prompting 方法多用于分类或检测,在密集预测(如分割)任务中探索较少。
- 在微调新类时,容易出现灾难性遗忘,导致基类性能大幅下降。
-
本文切入点:
受 NLP 和视觉大模型(如 CLIP, SAM)中 Prompting 技术的启发,作者思考:能否用一组可学习的向量(Visual Prompts)来代表不同的类别,通过 Transformer 的注意力机制来完成分割任务?
3. 💡 核心方法 (Methodology)
3.1 整体架构 (Architecture)
模型基于 Mask2Former 风格的架构,包含特征提取器(Backbone)、像素解码器(Pixel Decoder)和多尺度 Transformer 解码器。
- Visual Prompts:作者定义了一组可学习的嵌入向量作为 Prompts。
- Base Prompts:在基类数据充足时训练好并冻结。
- Novel Prompts:针对新类,利用支持集(Support Set)图像的掩膜平均池化(Masked Average Pooling)进行初始化。
3.2 关键创新模块
1. 单向因果注意力 (Novel-to-Base Causal Attention)
这是本文最大的亮点。为了解决新类样本少、特征不鲁棒的问题,作者让新类 Prompt 去“关注”基类 Prompt。
- 机制:在每一层解码器中,Novel Prompts 会通过 Cross-Attention 聚合 Base Prompts 的信息。
- 单向性 (Causal):只有 Novel -> Base 的注意力,没有 Base -> Novel。
- 作用:
- 上下文增强:利用基类丰富的语义信息来辅助新类。
- 特征分离:通过注意力机制产生的排斥/吸引作用,减少新类与基类之间的混淆(Confusion)。
- 保护基类:因为是单向的,基类 Prompt 不受新类影响,避免了灾难性遗忘。
2. 多尺度提示 (Multi-scale Prompting)
Prompt 不仅仅作用于单一尺度,而是在 Transformer 解码器的每一层(对应不同分辨率的图像特征)都进行交互和细化。这使得分割结果在细节上更加精准。
3. 直推式提示微调 (Transductive Prompt Tuning)
在测试阶段(Inference),利用未标记的查询图像(Query Image/Target Image)来进一步优化 Prompt。
- 目标函数:结合了互信息最大化(熵最小化 + 边缘分布对齐)和知识蒸馏损失(保持基类预测不变)。
- 优势:无需修改模型参数,只微调 Prompt 向量,速度快且有效。
4. 📊 实验结果 (Experiments)
4.1 性能对比 (SOTA Comparison)
在两个标准数据集 COCO-20ⁱ 和 PASCAL-5ⁱ 上进行了评估。
-
Inductive 设置 (仅使用支持集):
- 在 COCO-20ⁱ (5-shot) 上,mIoU 达到 40.83%,比之前的 SOTA (DIaM) 提升显著。
- 在 PASCAL-5ⁱ (5-shot) 上,mIoU 达到 62.60%。
- 结论:即使不使用未标记数据,该方法的架构优势也非常明显。
-
Transductive 设置 (使用未标记测试数据):
- 性能进一步提升,COCO-20ⁱ (5-shot) 达到 42.48%,PASCAL-5ⁱ (5-shot) 达到 66.27%。
- 优于专门设计的直推式方法(如 RePRI, DIaM 等)。
4.2 消融实验 (Ablation Study)
- 初始化策略:使用 Masked Pooling 初始化 Novel Prompts 比随机初始化效果更好。
- 因果注意力层数:在每一层都加 Causal Attention 比只在第一层加效果好得多。
- 可视化分析:t-SNE 可视化显示,加入 Causal Attention 后,新类和基类的特征分布分离得更清晰,混淆度降低。
5. 🧠 总结与思考 (Conclusion)
这篇文章提供了一个非常优雅的 GFSS 解决方案。
- 去元学习化:证明了不需要复杂的元学习训练策略,仅靠设计良好的 Prompting 机制和 Transformer 架构就能解决少样本分割问题。
- Prompt 的灵活性:将类别表示为 Prompt 向量,使得处理新类变得非常轻量级(只需要学习几个向量,而不是微调整个网络)。
- 因果注意力的巧思:巧妙利用了“基类数据丰富”这一先验知识,通过单向注意力让“富人(基类)”带动“穷人(新类)”,同时不影响“富人”的地位。
适用场景:该方法非常适合需要快速适应新类别且不能牺牲旧类别性能的实际应用场景(如医学图像分割、自动驾驶中的长尾物体检测等)。
更多推荐
所有评论(0)