CVPR 2026 | 统一多模态与多目标!Tell2Adapt:基于视觉基础模型的医学图像无源无监督域自适应

论文题目:Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model
发表出处:arXiv 2026
作者机构:Yulong Shi, Shijie Li, Ziyi Li, Lin Qi (东北大学医学与生物信息工程学院,医学图像计算教育部重点实验室等)
关键词:Source Free Unsupervised Domain Adaptation (SFUDA), Vision Foundation Model (VFM), Medical Image Segmentation, Prompt Regularization


1. 🚀 省流版摘要 (TL;DR)

在医学图像分割中,由于隐私限制,无源无监督域自适应(SFUDA)成为了临床部署的关键。然而,现有方法大多只能处理特定且差异较小的领域偏移,无法泛化为一个统一的框架。本文提出了 Tell2Adapt,一个巧妙借助视觉基础模型(VFM)强大泛化能力的统一 SFUDA 框架。该方法通过上下文感知提示正则化(CAPR)将嘈杂的文本提示标准化,引导 VFM 生成高质量伪标签并蒸馏给轻量级学生模型;同时引入视觉合理性细化(VPR),利用解剖学先验剔除假阳性预测。在涵盖腹部、大脑、心脏和息肉的 10 个适应方向和 22 个解剖目标上,Tell2Adapt 全面碾压现有方法,甚至在极端的 MR-US 跨模态任务中也展现出了惊人的鲁棒性,确立了 SFUDA 的新 SOTA!


2. 🧐 背景与痛点 (Motivation)

  • 现有问题:医学图像由于设备和成像物理原理的不同(如 CT 与 MRI,甚至 MRI 与超声),存在巨大的领域偏移(Domain Shift)。传统的无监督域自适应需要访问源域数据,这在医疗隐私法规下通常行不通,因此 SFUDA 成为刚需。
  • 传统 SFUDA 的局限(错误累积的死循环)
    • 大多数方法依赖源模型在目标域上的预测来生成伪标签或进行熵最小化。当领域偏移巨大时,源模型的预测极其糟糕,基于此进行的自适应会导致严重的错误累积(Error Accumulation)
  • 引入 VFM 的痛点
    • 近期有工作尝试引入 SAM 等视觉基础模型(VFM),但它们往往依赖源模型的低质量预测作为空间提示(Spatial Prompts,如边界框或点)。这依然没有打破错误传播的链条,导致 VFM 被错误的空间提示误导,生成极差的伪标签。

3. 💡 核心方法 (Methodology)

Tell2Adapt 彻底放弃了不可靠的“空间提示”,转而利用**文本提示(Text Prompts)**来引导 VFM(本文使用的是 BiomedParse),从而从根本上切断了源模型的错误传播。框架包含三个核心模块:

3.1 上下文感知提示正则化 (CAPR: Context-Aware Prompts Regularization)

临床医生输入的文本提示往往充满拼写错误、歧义或缺乏上下文。

  • LLM 语义归一化:作者引入大语言模型(如 Qwen3-VL)作为“语义清洗器”。LLM 首先推断全局上下文(如模态和解剖区域),然后纠正拼写错误,并将所有提示格式化为统一的规范结构:[目标] in [解剖部位] [模态]
  • 作用:为 VFM 提供稳定、无歧义的文本指导,确保生成高质量的伪标签。
3.2 VFM 引导的知识蒸馏 (VFM-Guided Knowledge Distillation)
  • 伪标签生成与直方图均衡化:利用规范化后的文本提示,BiomedParse 在目标域图像上生成高质量的伪标签。同时,对目标图像应用直方图均衡化(HE)以缓解底层的灰度分布偏移。
  • 轻量化蒸馏:将 VFM 庞大的泛化知识蒸馏到一个轻量级的源模型(如基于 ResNet 的 nnUNet)中。这样,在最终的临床推理阶段,只需要运行 31.1M 参数的轻量级模型,而不需要跑 371.8M 参数且极其耗显存的 VFM。
3.3 视觉合理性细化 (VPR: Visual Plausibility Refinement)

为了进一步保证临床可靠性,作者设计了后处理模块 VPR。

  • 解剖学统计先验:利用 BiomedParse 预计算的各个类别的视觉属性(如像素概率、RGB 通道强度)的 Beta 分布 ( \mathcal{P}_C )。
  • 联合概率过滤:对模型预测出的每一个独立连通域计算其“解剖学合理性得分”。如果某个预测区域的底层视觉特征与该器官的先验统计分布严重不符,则将其视为噪声或假阳性并予以剔除。

4. 📊 实验与结果 (Experiments)

  • 极其硬核的实验设置
    • 评估了 10 个域自适应方向,涵盖 22 个解剖目标。
    • 数据集包括 AMOS (腹部 CT/MR)、BraTS (大脑多序列 MRI)、CAMUS/ACDC (心脏 MR/US)、Kvasir/CVCDB (肠镜息肉)。
  • 对比实验表现
    • 腹部多器官 (MR (\rightarrow) CT):Tell2Adapt 平均 Dice 达到 88.2%,不仅远超 Baseline (47.4%),甚至逼近了全监督上限 (88.4%)。
    • 极限跨模态 (MR (\rightarrow) US 心脏分割):这是物理成像差异极大的地狱级难度。Baseline 和现有 SOTA 方法(如 DFG, IPLC)几乎全军覆没(Dice 仅为个位数),而 Tell2Adapt 依然坚挺,左心室 (LV) Dice 达到 94.6%,心肌 (MYO) 达到 88.5%
  • 消融实验 (Ablation Study)
    • 作者专门设计了“混乱提示(Chaos Prompts)”(包含乱序、错字、缺失)来测试系统。在没有 CAPR 的情况下,系统性能崩溃(MR (\rightarrow) CT 降至 48.9%);而加入 CAPR 后,性能瞬间恢复至 85.7%,证明了该模块在真实杂乱输入下的极强鲁棒性。

5. 🧠 笔者思考与总结 (Conclusion & Thoughts)

  • 优点总结
    这篇文章的思路非常清晰且极具破局感。在大家都绞尽脑汁去优化源模型的伪标签或对齐特征时,Tell2Adapt 直接跳出框架,指出**“文本提示才是打破错误累积死循环的钥匙”**。利用 LLM 洗数据(CAPR),利用 VFM 打伪标签,利用解剖先验做后处理(VPR),最后蒸馏给小模型落地。这一套组合拳不仅逻辑自洽,而且工程实用性极强,真正做到了“大模型指导小模型”的完美闭环。
  • 潜在局限
    正如作者在讨论中所指出的,尽管最终部署的学生模型很轻量,但在伪标签生成阶段(自适应阶段),依然需要频繁调用庞大的 VFM 和 LLM,这在计算开销和时间成本上相对较高(例如腹部数据每体数据需要约 3.47 秒)。
  • 未来展望
    这种“文本解耦”的自适应范式极具启发性。未来或许可以探索如何将 CAPR 和 VPR 的逻辑直接融入到轻量级模型的端到端训练中,或者利用更高效的轻量级多模态模型来进一步压缩自适应阶段的算力成本。
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐