MedCLIP-SAMv2:迈向通用文本驱动医学图像分割
医学图像中解剖结构和病理的分割对于现代疾病诊断、临床研究和治疗计划至关重要。尽管基于深度学习的分割技术取得了重大进展,但许多方法在数据效率、泛化性和交互性方面仍存在局限性。因此,开发需要更少标注数据集的稳健分割方法仍是医学图像分析中的一项关键挑战。近年来,基础模型如CLIP和Segment-Anything-Model(SAM)的引入,结合了强大的跨域表示,为交互式和通用图像分割开辟了道路。然而,
论文总结
这篇论文提出了 MedCLIP-SAMv2,一个基于文本驱动的通用医学图像分割框架。主要工作包括:
-
改进的对比学习损失(DHN-NCE):对 BiomedCLIP 进行微调,通过解耦正负样本并强调难负例,提升跨模态检索和分割性能。
-
零样本分割流程:利用微调后的 BiomedCLIP 提取图文特征,经多模态信息瓶颈(M2IB)生成显著性图,再经后处理(Otsu、连通域分析)和 SAM 视觉提示(边界框/点)得到精细分割。
-
弱监督增强:将零样本分割结果作为伪标签,结合 checkpoint 集成训练 nnUNet,进一步提升精度并提供不确定性估计。
在四个模态(乳腺超声、脑肿瘤 MRI、肺 X 光、肺 CT)的数据集上,零样本和弱监督设置均显著优于现有 SOTA 方法。
摘要
医学图像中解剖结构和病理的分割对于现代疾病诊断、临床研究和治疗计划至关重要。尽管基于深度学习的分割技术取得了重大进展,但许多方法在数据效率、泛化性和交互性方面仍存在局限性。因此,开发需要更少标注数据集的稳健分割方法仍是医学图像分析中的一项关键挑战。近年来,基础模型如CLIP和Segment-Anything-Model(SAM)的引入,结合了强大的跨域表示,为交互式和通用图像分割开辟了道路。然而,进一步探索这些模型以实现医学影像中数据高效的细分仍是一个活跃的研究领域。本文介绍了MedCLIP-SAMv2,一种新颖框架,整合CLIP和SAM模型,在零样本和弱监督环境下利用文本提示对临床扫描进行切割。我们的方法包括通过新的解耦硬负噪声对比估计(DHN-NCE)损耗微调BiomedCLIP模型,并利用多模态信息瓶颈(M2IB)创建用于零样本设置下生成分割掩模的视觉提示。我们还研究在弱监督范式中使用零样本切片标签以进一步提升切分质量。在四种不同的分割任务和医学影像模式(乳腺肿瘤超声、脑肿瘤MRI、肺X光和肺CT)上的广泛验证,证明了我们提出框架的高准确性。我们的代码可在 https://github.com/HealthX-Lab/MedCLIP-SAMv2 获取。
引言
随着放射技术日益普及,对精确高效的医学影像分割需求日益增长,以支持各种疾病的研究、诊断和治疗(Siuly 和 Zhang,2016)。深度学习(DL)技术已成为该领域的最先进(SOTA);然而,它们面临三大关键挑战,阻碍其更广泛的临床应用。首先,大型且注释丰富的数据集稀缺,是DL模型开发的主要障碍。其次,缺乏交互性和可解释性削弱了人们对这些方法的信任。最后,大多数医学DL模型是针对特定任务和对比/模态训练的,限制了其灵活性。而几种自监督和弱监督方法(Baevski 等,2023;Chen 等,2020;Taleb 等,2021)已被引入以提高训练效率,以及可解释的人工智能(XAI)技术,包括不确定性估计(Loquercio 等,2020;Liu 等,2020)和显著性图(Arun 等,2021;Bae 等,2020)正在积极研究中,跨域泛化仍是一大挑战。近年来,基础模型的引入,如对比语言-图像预训练(CLIP)(Radford 等,2021)和任意分割模型(SAM)(Kirillov 等,2023),为交互式和通用的医学图像分割开辟了道路。多个研究团队已将CLIP和SAM应用于放射学任务,包括BiomedCLIP(Zhang 等,2023)和MedSAM(马和王,2023),这些模型在海量生物医学数据基础上进行了预训练。然而,参数微调方法的进一步进步有望提升这些模型在放射学中的表现。 尽管CLIP训练主要在图像-文本映射的全局层面工作,但研究(Fu等,2024)表明这些模型能够编码图像的丰富特征表示。这使我们能够建立全球文本信息与局部视觉特征之间的关系(Zhou 等,2022;Rao等,2022),该技术可用于高效的零拍摄医学图像分割,即使在数据稀缺的环境中也能实现更广泛的应用,正如我们在MICCAI 2024论文中首次探讨的(Koleilat 等,2024b)。医学术语的复杂和细腻,加上医学图像中细微复杂的变化,带来了自然图像中不那么明显的独特挑战。虽然将CLIP适应医学图像领域看似吸引人,但这并不简单,需要大量地面真实标签才能有效微调模型,尤其是在下游分割任务中(Poudel等,2023)。医学影像中缺乏大型、高质量的注释数据集,进一步加剧了这一挑战。这需要生物医学领域特异性CLIP模型,如BiomedCLIP(Zhang等,2023),并基于这些领域特异性CLIP模型进行有效的微调损失函数,以在放射学应用中建立更有效的跨模态学习,如病理定位、分段和诊断不存在。我们在MedSAMCLIPv2的论文中继续探讨这些内容。另一方面,随着对SAM兴趣的增长,为了减少对视觉提示(如点和/或边界框)的依赖(这些提示需要先验临床知识),最近出现了无需这些提示的SAM微调方法(Chen 等,2024;Hu 等,2023),通过分类任务生成类激活映射(CAM)提示(Li 等,2024,2023;Liu和Huang,2024年),并通过弱监督来优化产出(Yang和Gong,2023;Chen 等,2023;Huang 等,2023)。虽然仍处于早期阶段,但基础模型用于交互式和通用医学图像分割仍是一个值得进一步探索的重要领域。最近,为应对这些挑战,我们引入了MICCAI2024 MedCLIP-SAM(Koleilat 等,2024b),该技术利用 BiomedCLIP(Zhang 等,2023)生成基于文本的 SAM 对话框提示(Kirillov 等,2023),实现交互式和通用医学图像分割,适用于零镜头和弱监督环境。在初步成功之后,还需进一步改进和探索该框架,以进一步提升性能,并深入了解医学影像应用中的CLIP和SAM基础模型。因此,本文提出了MedCLIP-SAMv2新技术,进一步发展并显著改进了我们最初用于零样本和弱监督医学图像分割的MedCLIPSAM框架(Koleilat 等,2024b)。具体来说,新提出的MedCLIP-SAMv2框架相较于原始方法的主要升级包括:
• 我们研究了CLIP模型的不同显著性图生成技术,其中用M2IB(Wang等,2024)替代gScoreCAM(Chen等,2022),结合对BiomedCLIP的微调(Zhang等,2023),显著提高了零射击切割的准确性。
• 我们通过使用伪标签训练nnUNet(Isensee等,2021),同时通过检查点集合提供不确定性估计,提升了较前框架的弱监督分割结果和可解释性(Zhaw等,2022)。
• 通过纳入额外的肺部CT数据集,验证范围扩大,涵盖了CT、MRI、超声和X光四大关键放射学模式。这一全面的测试进一步展示了该框架在多样化分段任务中的多功能性和稳健性。
• 我们通过利用大型语言模型(LLM)推理和多种集成方法,研究并优化了高级文本提示工程策略,这些方法被证明显著提升了零元片段分割的性能。
• 进行了更广泛的实验以进一步验证我们框架的设计组件,包括测试不同的SAM骨干和可视化提示类型。我们仔细评估框架中每个组件的必要性,并展示它们对整体性能提升的具体贡献。
新提出的MedCLIP-SAMv2框架更为准确,进一步推进了通用文本驱动的医学图像分割,Dice得分分别在零射击和弱监督范式中增长了13.07%和11.21%。我们的主要贡献有三方面:首先,我们提出了一种新的CLIP训练/微调损失函数,称为解耦硬负噪声对比估计(DHNNCE)。其次,我们引入了一种基于文本的零样本医学分割方法,结合CLIP和SAM用于放射学任务。最后,我们探讨了一种弱监督策略,以进一步精炼零样本分割结果并进行不确定性估计。我们提出的框架在四种不同的分段任务和方式中得到了广泛验证,包括超声中的乳腺肿瘤分段、MRI中的脑肿瘤分段以及胸部X光和CT中的肺部分段。
相关工作
医学领域的CLIP
多部作品利用CLIP制作医学图像和文本。尽管训练基于4亿对自然图像文本,CLIP在医疗任务中性能有所下降。因此,像PubMedCLIP(Eslami 等,2023)这样的研究建议对一组PubMed文章进行微调CLIP以实现医学问答任务;Zhang 等人(Zhang 等,2023)随后显示 PubMedCLIP 在跨模态检索任务中的表现较差(比 CLIP 差)。另一方面,MedCLIP(Wang 等,2022)提出了一种利用解耦图像和文本在训练中增强数据的技术,而 Windsor 等(Windsor 等,2023)则探索了在有限数据环境中提升视觉语言模型在医疗领域任务性能的不同方法。另外,Wu等人(Wu等,2023a)提出了一种通过简化句子复杂度来增强医学报告文本的方法。此外,其他研究如(Keicher等,2023)和(Tiu等,2022)也利用CLIP进行病理检测和医学报告生成。然而,值得注意的是,几乎所有提及的作品(Wang 等,2022;Windsor 等,2023;Wu 等,2023a;Keicher等,2023;Tiu等,2022)仅在提出的方法中使用了胸部X光数据。BiomedCLIP(Zhang等,2023)是迄今为止最新的大规模多模态医学数据研究成果,已被证明在跨模态检索准确性方面更优。重要研究(Koleilat 等,2024a;Poudel等人,2023)研究了BiomedCLIP在分类和分割等下游任务中的传输能力。然而,与大量CLIP文献相比,其适应性仍大多未被充分探索。据我们所知,我们的工作是首次探索BiomedCLIP在零拍摄分割任务中的潜力,为更高效的医学影像应用铺平了道路。
弱监督语义分割
为缓解医学图像分割中标注良好数据集的短缺,许多研究探索了利用类似CLIP模型对自然图像中不同区域进行弱监督范式的分割。CLIP-ES(Lin 等,2023b)提出了一种纯文本驱动的方法,通过 CLIP 的类激活图谱生成更好的伪掩膜,而非训练亲和网络;而 SAMS(Yang 和 Gong,2023)后来通过利用 SAM 模型从图像级标签生成粗种子和细种子,扩展了该工作。此外,SG-WSSS(Jiang 和 Yang,2023)研究了不同的视觉提示方法,包括涂鸦、点和边界框,以引导SAM通过CAM得分。然而,这些作品可能无法很好地转化为医学扫描,因为医学扫描的特征与自然影像不同。专为CLIP模型量身定制的新型CAM技术如gScoreCAM(Chen等,2022)和M2IB(Wang等,2024),已在生成多模态显著图方面具备SOTA性能。具体来说,gScoreCAM(Chen 等,2022)利用了文本和图像编码层的顶K通道激活,从而获得了更为局部化的显著性图谱。较新的M2IB(Wang等,2024)将信息瓶颈理论重新表述为多模态应用,证明其优于基于CAM的、基于扰动的和基于注意力的显著性映射技术。此外,M2IB还展示了其在医学影像应用中的潜力,在胸部X光数据集上精细调校的CLIP模型能够正确突出异常区域(Wang 等,2024)。最近,Liu等人(Liu等,2023)通过整合ChatGPT生成相关文本提示,优化零射程医学图像诊断的解读,从而输出放射异常的相关描述。然而,这些先前的研究并未探讨通过模型训练改善医学细分。
用于医学影像分割的SAM
随着SAM的出现,SAM是一种图像分割的基础模型,通过可提示架构实现零镜头泛化,该架构包括强大的图像编码器、灵活的提示编码器和轻量化的掩码解码器,众多研究致力于将其应用于医学影像应用。MedSAM(马和王,2023)对约100万对医疗图像-掩膜对进行了大规模微调,并在多重分割任务中表现出优异性能。AutoSAM(Shaharabany 等,2023)通过训练提示编码器和开发轻量级解卷遮罩解码器,为医疗分割任务提供了更高效的SAM微调方法。Cheng等(Cheng等,2023)发现,边界框在提示SAM时效果最佳,应用于12种不同的医学分割任务;Huang等(Huang等,2023)提出了一种伪掩膜校正框架,用于增强SAM生成的噪点标签,用于进一步微调。最后,Gong 等人(Gong 等,2023)用三维卷积神经网络取代了SAM的遮罩解码器,从而支持体积医学图像。
方法
图3展示了所提MedCLIP-SAMv2框架的完整概述,分为三个不同阶段:1)利用我们新推出的DHN-NCE损耗进行BiomedCLIP微调,2)由文本提示引导的零样本分割,3)弱监督分割以实现标签细化。我们还在图1中展示了该框架主要组成部分的摘要,方便读者参考。

图1:基本组成部分的总体概述。

图2:标准CLIP损失与我们的DHN-NCE损失(优先考虑较难的例子)与我们的DHN-NCE损失(优先处理较难的例子)的比较。DHN-NCE损失通过自适应加权公式适当惩罚接近的负面样本,增强了医学案例的区分。绿色轮廓代表锚点示例,红色轮廓代表负面示例。

图3:拟议中的MedCLIP-SAMv2框架概述。
高效的DHN-NCE微调
类CLIP模型通常在大量数据集上训练,这些数据集由图像及其对应的文本描述组成。这些模型使用图像编码器和文本编码器提取特征,并将其表示为共享维空间中的向量1:图像用Ip,i表示,文本用Tp,i表示。通过对比学习机制,CLIP通过最小化图像-文本对在嵌入空间中的距离,同时最大化无关对的分离,从而对齐语义相关的图像-文本对。这一共享嵌入框架促进了对多模态数据的连贯理解。尽管BiomedCLIP(Zhang等,2023)是基于医学图表/图像和临床文本进行训练的,但进一步微调可以显著提升其在医学影像特定任务中的表现。在传统的CLIP训练中,InfoNCE损失(Oord等,2018),负正耦合(NPC)效应(Yeh 等,2022)会降低学习效率,尤其是在批次较小的情况下。此外,对于医学图像,区分同一成像类别内病例中的细微差异可能具有挑战性。为解决这些问题,我们提出了解耦硬负噪声对比估计(DHN-NCE)损失,该方法1)结合了InfoNCE损耗(Oord等,2018)与硬负采样(Robinson等,2021),强调“紧密样本”;2)通过去除分母中的正项,实现了解耦对比学习(Yeh等,2022),从而实现更小的批次规模。



加权函数利用指数缩放来放大硬负的贡献——即相似度更高的负面——同时抑制较易的负面,确保总权重分布优先考虑这些具有挑战性的情况(见图2)。通过将正项与分母解耦,DHN-NCE防止简单正项减小与硬负相关的梯度。这一机制使模型更加专注于细化难度较高的病例区分,即使在小批量的情况下也能实现更高效的训练。这些特性使DHN-NCE特别适合数据可用性有限且特征差异较小的医学影像任务。
零样本医学图像分割
在此阶段,我们使用经过微调的BiomedCLIP,参数更新为θ = {θimg, θtext},作为从图像和文本提示中提取特征的骨干模型。核心分割过程依赖于多模态信息瓶颈(M2IB)技术(Wang 等,2024),通过将文本提示与图像区域关联,生成目标区域的视觉显著性图。 零片段切割流程可描述如下:
图像和文本嵌入提取:给定输入医学图像I及其对应的文本提示T,使用图像编码器Φimg和文本编码器Φtext,从微调的BiomedCLIP模型中提取嵌入:

LLM 提示词生成:由于 BiomedCLIP 利用 PubMed 的文本字幕预训练其文本编码器(即 PubMedBERT),我们利用 GPT-4(Achiam 等,2023)等大型语言模型生成复杂的文本提示,指导模型定位某些显著区域。具体来说,我们生成描述性文本提示,引导模型关注医疗扫描中的显著特征,具体如下:给出描述[MODALITY]中[目标]独特视觉特征的句子说明。我们可以设计从通用到类别特定上下文的多种提示配置,并在第4.3.1节研究这些不同风格的影响。
显著性图生成:嵌入 Zimg 和 Ztext 随后通过多模态信息瓶颈(M2IB)模块(Wang 等,2024),该模块通过最大化输入图像 I 与良好代表性文本提示 T 之间的互信息,同时过滤图像嵌入与输入图像之间的无关信息,从而学习对齐图像和文本模态。通过这样做,该过程弥合了编码的视觉特征与文本特征之间的语义鸿沟,确保嵌入强调了跨图像和文本的共同相关内容。具体来说,M2IB模块引入了随机信息瓶颈λS∈RH×W,使得0≤λS≤1,其中H,W分别是输入图像I的高度和重量。这会为图像生成一个连续的视觉显著性图,代表每个像素对文本提示的重要性。该视觉显著性图是通过优化以下目标函数生成的:

初始分割的后处理:为了获得逐像素离散的分割,我们对显著性映射λS应用Otsu阈值化(Otsu,1979),自动确定一个最佳阈值η∗,通过最小化类内方差来区分前景(感兴趣区域)与背景。二元分割由以下方式给出:

阈值化后,可能仍存在小且不连贯的轮廓。为了优化细分并确保结果稳健,我们对已识别的等高线C进行了连通分量分析。对于每个连通分量c∈C,我们基于显著性映射λS计算置信度评分。连通分量的置信度可由以下方式推导:

其中 pi 是像素 i 属于前景类的概率,yˆi 是像素 i 的预测二进制标签。使用该置信度评分通过识别置信度最高的连通分量,形成最终粗分段

通过SAM细化:初始细分作为Segment Anything模型的输入,该模型通过从后处理的簇中提取的视觉提示V(例如边界框或点)来细化细化细化。对于边界盒,我们计算4个盒坐标(边界盒),它们包围每个连接的等高线,而对于点,我们随机采样位于等高线内的不同点。最终零截图分割掩模Y零样本图因此得到:

不确定性感知弱监督分割
为进一步提升分割准确性,零样本切割结果Yzero-shot作为伪标签与输入医学图像I一起训练分割网络M,以弱监督方式训练。因此,训练数据将为 T = {(I, Yzero-shot)}。基于Zhao等人(Zhao等,2022)的最新研究,检查点集合在医学图像分割的不确定性估计方面优于蒙特卡洛丢失和平均场贝叶斯神经网络等技术。这一发现在nnUNet框架的背景下尤为重要(Isensee 等,2021)。给定总数E,训练过程被划分为由Ed = E D纪元组成的D个周期,每个周期中保存模型的Gd检查点。重要的是,这种检查点策略不会给训练过程增加任何延迟,因为它涉及保存同一模型的备用检查点,而不是训练独立模型。完成所有训练周期后,通过将训练过程中保存的总检查点平均,从G = D∗Gd的预测中平均,获得最终分割Yfinal的概率预测,得到类似蒙特卡洛的近似:

分割不确定性估计:不同检查点间预测的差异也有助于估计最终分割掩码的不确定性。生成的不确定性图有助于精准定位医学扫描中预测中高度不确定性的区域。给定医学图像中的R类,每个像素的不确定性

数据集与实验配置
BiomedCLIP微调
我们使用了公开的MedPix数据集(Siragusa等,2024),其中包含多种放射模态,对BiomedCLIP模型(Zhang 等,2023)进行了DHN-NCE损失的微调。图像和文本的基础编码器分别是Vision Transformer(ViT)和PubMedBERT(Zhang 等,2023)。MedPix数据集通过去除特殊字符、裁剪前后空白,以及排除标题少于20字符的样本进行了清理。所有图像均调整为224×224像素,并根据原始CLIP模型中使用的RGB通道均值和标准差进行归一化(Radford等,2021)。我们进行了85%-15%的分配,共计生成了20,292张训练图像和3,515张验证图像。微调采用了1E-6的学习率,衰变率为50%,批次大小为64。为验证BiomedCLIP的微调质量,我们评估了ROCO(Radiology Objects in Context)数据集(Pelka等,2018)中图像对文本和文本对图像匹配的前1和前2准确率,该数据集包含约7,042张涵盖广泛放射病例的多模态医疗图像。我们以50个批次进行实验五次,使用洗牌随机化图像-文本对(结果共70,420个洗牌示例)。此外,我们还比较了不同的SOTA微调损失函数,包括InfoNCE(Oord等,2018)、DCL(Yeh等,2022)和HN-NCE(Radenovic等,2023),与我们的DHNNCE损失。为公平比较,所有策略均使用相同的超参数训练(τ = 0.6,学习率 = 1E6),HN-NCE和DHN-NCE的硬度参数设为β1 = β2 = 0.15。作为参考,我们还纳入了预训练的BiomedCLIP(Zhang等,2023)、PMC-CLIP(Lin等,2023a)和CLIP(Radford等,2021)的基线结果。
数据集
为评估零射击和弱监督分割结果,以及提出的MedCLIP-SAMv2框架的多个设计元素,我们使用了四个公开数据集,分别代表不同的放射学模式和任务。这些数据集包括乳腺肿瘤、脑肿瘤和肺部的分割,分为训练、验证和测试集,具体如下:
• 乳腺肿瘤超声:乳腺超声图像数据集(BUSI)(Al-Dhabyani等,2020),包含600张良性和恶性肿瘤的训练图像。此外,分别使用了来自UDIAT数据集的50张和113张图像(Byra等,2020)进行验证和测试。
• 脑肿瘤MRI:脑肿瘤数据集(Cheng,2017),包含1,462次T1加权MRI扫描(用于训练)、1,002次用于验证和600次测试。
• 肺胸部X光:COVID-19放射数据库(COVID-QU-Ex)(Chowdhury等,2020;Rahman等,2021)分为16,280张胸部X光片(正常、肺不透明度、病毒性肺炎和COVID-19病例),用于训练,1,372张用于验证,957张用于检测。
• 肺部CT:来自(Konya, 2020)的CT扫描,包含107名患者的纤维化病肺的断片面罩,分为7,959片用于训练,3,010片用于验证,1,800片用于检测。这种分割是通过患者ID来实现的,以防止数据泄露。
实验设计与评估
我们使用了来自后处理M2IB结果的初始标签、零样本伪掩模和弱监督输出的分割质量进行全面比较。我们的零样本方法与SOTA零样本分割方法(如SaLIP(Aleem等,2024)和SAMAug(Dai等,2024)以及少样本方法(如UniverSeg(Butoi等,2023)、ProtoSAM(Ayzenberg等,2024)和SelfPrompt-SAM(Wu等,2023b)进行了基准测试。此外,我们比较了弱监督方法与 nnUNet(Isensee 等,2021),后者在伪标签上训练,且无检查点集合。对于弱监督分割,我们训练了nnUNet(Isensee等,2021)架构,涵盖600个纪元,所有数据集有3个周期。学习率初始化为0.01,并采用了(Zhao等,2022)中描述的周期性学习率计划,即学习率在每个周期内在最大值和最小值之间波动。这使得模型能够摆脱局部最优,探索更广泛的解空间,从而实现更丰富和稳健的预测。我们保存了3个周期中最后10个检查点,总共30个模型检查点。最终的分割结果会从这30个检查点的预测中取平均,之后通过阈值计算以生成二元掩码。作为零射点分割消融研究的一部分,我们考察了:1)微调BiomedCLIP及选择可解释人工智能(XAI)技术生成显著性图的影响,2)不同文本提示对整体切割性能的影响,3)每个模型组件对最终表现的贡献,4)选择具有多种视觉提示策略的SAM预训练模型。这些消融研究均针对上述四个数据集的测试集进行。在所有实验中,均使用了Dice-Sørensen系数(DSC)和归一化表面距离(NSD)作为评估指标。还进行了配对样本t检验以验证观察到的趋势,p值小于0.05表示具有统计显著性。
结果
和SOTA对比

表1展示了拟议的MedSAMCLIPv2与不同SOTA技术的比较。与原始MedCLIP-SAM相比,我们的方法在零样本环境中显著提升了平均DSC(数字插入分数)从64.54%提升至77.61%,NSD从66.10%提升至81.56%。同样,在监督较弱的情景中,平均DSC从70.90%升至82.11%,NSD从73.77%升至87.33%,甚至超过了在无检查点集合的情况下使用伪标签训练的监督薄弱国家大学。总体而言,我们的方法在多种成像方式/任务中显著优于所有零射击和少量射击的SOTA方法(p < 0.05),肺X射线除外。然而,完全监督的方法仍然比使用有限资源的方法提供更高的准确性。
DHN-NCE的疗效

ROCO数据集(Pelka等,2018)跨模态检索(文本到图像和图像到文本)的准确性见表2,针对BiomedCLIP微调的不同损失,基线为三个预训练CLIP模型。可以看出,领域特定预训练模型的表现优于CLIP,大规模预训练提供了更好的检索准确率,而预训练的BiomedCLIP在所有预训练模型中展现出最高的检索准确率。对BiomedCLIP的微调进一步提升了其性能。具体来说,BiomedCLIP在使用DHN-NCE微调后,图像到文本检索分别达到84.70%的前一和94.73%的前二名,在文本到图像的检索中分别位列前一和95.17%的前二名,显著优于其他损失函数和基线模型(p < 0.01)。此外,通过表4和表5中不同任务和图像模态的分割质量提升,进一步验证了通过微调DHN-NCE损失的优势。
消融实验
文本提示设计的影响
我们进行了一系列实验,分析各种文本提示设计对零帧分割性能的影响。特别地,我们比较了六种不同的提示配置:P0和P1包含待分割对象的类名,P2和P3由较长的描述性单提示词组成,最后P4和P5是20个文本提示的集合。注意,P0、P2和P4是通用文本提示,而P1、P3和P5则更细致,包含目标对象的子类型。例如,在乳腺超声中,P0为“乳腺肿瘤”,而P1根据肿瘤类别可为“恶性乳腺肿瘤”或“良性乳腺肿瘤”。对于P2,我们用了一个描述性句子,比如“医学乳腺X光显示一个可疑、形状不规则的肿块,暗示乳腺肿瘤。”而P3则包含关于特定肿瘤亚型的描述性文字,比如“医学乳腺X光检查显示一个形状不规则、带刺状的肿块,暗示恶性乳腺肿瘤。”P4和P5与P2和P3相似,但他们采用集合方法,平均20个不同提示的文本嵌入。这里,所有描述性临床提示均由GPT-4生成(Achiam等,2023)。肺部CT课程仅根据通用提示进行评估,因为只有一门课可选。如表3所示,文本提示的选择显著影响了分割性能。类别特定提示(P3)通常对乳腺和脑肿瘤等较小结构效果更好,而通用提示(P0、P2)则在X光和CT扫描中对肺部等较大结构表现更好,因为更简单、更通用的描述使模型能够专注于更大区域。每个任务的最佳提示配置用于生成表1中呈现的结果。

算法组件的消融分析
表4显示了我们框架中各组成部分在提升所有数据集平均分割性能方面的贡献。从使用M2IB生成显著性图开始,我们获得了46.23%的DSC基线和50.50%的NSD,初步聚焦于关键关注区域。通过微调BiomedCLIP并增加DHNNCE损失,DSC提升至49.10%,NSD提升至53.54%。对显著性地图的后期处理进一步提升了分割质量,使模型能够通过细化初始分割边界,更好地划分前景和背景区域。引入连通分量分析步骤极大地提升了结果,将DSC提升至57.89%,NSD提升至61.54%,消除了小型无关簇并减少噪声,提高了整体精度。通过整合SAM和视觉提示(如边界框或点),我们的零射击方法取得了显著改进,达到了77.61%的DSC和81.56%的NSD。最后,在薄弱监督下训练检查点集合通过利用零点方法生成的伪标签,进一步优化了分割质量。通过使用这些伪标签微调分段网络,我们最终得出了82.11%的DSC和87.33%的NSD。
显著性地图生成方法的影响

如表5所示,M2IB在所有任务中表现最高,使用精细调优的BiomedCLIP模型时,平均DSC为77.61%,NSD为81.56%。无论是预训练还是微调版本,M2IB都显著优于gScoreCAM和GradCAM(p < 0.05)。BiomedCLIP的微调平均提升了所有显著性图谱技术的得分,其中M2IB的提升最大,DSC提升了3.92%,NSD提升了4.24%,相比预训练版本。
SAM 视觉提示的比较

表6比较了不同的SAM模型和视觉提示技术。我们发现边界框通常提供了最佳的分割性能,除了肺X光,因为添加点提示能增强结果。另一方面,仅点提示的表现较差,除了某些任务,如肺X光(75.79% DSC,80.88% NSD)。此外,SAM、MedSAM和SAM-Med2D的比较表明,尽管SAM未经过医学数据预训练,但在边界框提示中表现良好,在大多数模态/任务中(包括肺CT)中获得高分。SAMMed2D在细分度分割方面表现出色,但在肺叶等较大结构中表现较佳,而MedSAM在这些方面表现更好。SAM性能优于其采用更大型号架构(ViT-H),相较于仅提供ViT-B配置的MedSAM和SAM-Med2D。
定性分割结果

图4:分割结果的定性比较。粗糙=后处理显著性图,WSS=弱监督分割,GT=地面真实。不确定性图对应弱监督分割。
最后,我们在图4中展示了针对我们所提方法评估的四种成像模态的定性分割结果。我们提出的MedCLIP-SAMv2在弱监督环境下持续产生高质量的分割掩模。除脑MRI外,所有数据集的初始粗分段均不理想。然而,它为零次试炼方法提供了充分的起点,以精炼粗激活图。对于乳腺肿瘤和脑肿瘤,零注射结果明显优于肺部CT和肺X光。在肺CT中,算法的主要挑战是区分两个叶。后处理结果显示中心有一个大型连通轮廓。零发精细化稍微区分了这两个区域,尽管仍有一些伪影。然而,这种薄弱监督的训练有效地纠正了这些错误激活,生成了高质量的分段图谱。对于肺X光,虽然监督薄弱的训练改进了精度较低的零射面罩,但其进步不及肺CT显著。此外,我们还为所有预测都配备了不确定性图。对于脑MRI,仅在分段边缘观察到较高的不确定性,这很常见。乳腺超声显示,分段边界处存在较高的不确定性,而边界外的周边区域则不确定性较低。相比之下,肺X光片中部出现轻微不确定性,且向边缘逐渐加大。在肺部CT中,肺叶边缘和中心都观察到高度不确定性。这主要是由于零样本伪标签中存在的伪影。
讨论
所提出的MedCLIP-SAMv2框架在零样本和弱监督医学图像分割任务中,在四种关键医学影像模式(CT、MRI、超声和X光)上,表现优于SOTA方法和原始MedCLIP-SAM方法(Koleilat 等,2024b)。通过结合BiomedCLIP和SAM配合文本和视觉提示,我们的方法展现出强大的领域和任务泛化能力,在脑和乳腺肿瘤分割等复杂任务中表现出色,这些任务中较小且复杂的解剖细节在典型切割任务中具有挑战性。我们的方法显著优于其他SOTA零点和少数点方法,尤其是在复杂的分割场景中(见表1)。近期方法如(Ding 等,2022)通过在自然视觉应用中解耦像素级和图像级分类任务,展示了CLIP在零拍摄分割中的潜力。然而,这些方法需要完全监督的分割真实数据,限制了其在标签稀少或噪声较大的情况下的应用,如医学图像分割。相比之下,MedCLIP-SAMv2绕过了这一要求,在训练过程中无需依赖分段标签,为医学影像提供了更可扩展的方法,尤其是在监督较弱的环境中。与原始 MedSAM-CLIP 相比,MedSAM-CLIPv2 中的组件更新极大地提升了性能。我们框架的一个关键优势在于将M2IB集成为放射任务,能够有效从医学图像和文本中提取有意义的信息,提升分割性能。DHN-NCE损失的引入在微调BiomedCLIP中发挥了关键作用,使模型能够专注于具有挑战性的细节,同时在所有任务和模态中保持高绩效。重要的是,M2IB和DHN-NCE的结合使模型能够生成粗分片掩模,随后通过SAM在零样本环境下进行细化(见表5),证明了该方法无需真实注释的多功能性。最后,关于提示词的有效性设计也是关键见解。在需要更深入解剖理解的肿瘤分割等复杂任务中,具有丰富的描述性提示效果更好。相反,更通用的提示对于肺部分割等简单任务也足够,因为更大、更明显的结构使模型在较少具体指导下也能实现强劲表现。这一见解表明,视觉语言模型中针对特定放射任务定制文本提示非常重要。这与使用冻结的BiomedCLIP编码器加解码头进行分割转移学习的研究结果形成对比,后者文本提示对分割质量影响甚微(Poudel等,2023)。选择BiomedCLIP而非CLIP也促进了我们方法的成功。

图5:显示CLIP和BiomedCLIP最后一层变压器上采样特征表示的示意图。特征图使用FeatUp(Fu等,2024)进行上采样以供可视化。
图5展示了CLIP和BiomedCLIP(均采用相同架构,即ViT-B/16)对样本医学图像产生的潜在表示。后者表明,BiomedCLIP模型仅通过自然语言监督就能学习编码医学扫描中显著区域的有意义潜在表征,从而使其能够在多种模式中突出与疾病相关的区域,而CLIP在医学图像中发现的细微视觉线索则未能被充分捕捉或区分。 我们框架在薄监督范式中运作的能力进一步增强了其临床应用潜力。通过使用零射切片的伪标记微调模型,我们观察到显著改进,尤其是在肺CT切片中,零射标记与弱监督的结合带来了显著的准确性提升。据我们所知,我们是首个通过 nnUNet 将不确定性估计与检查点集合结合起来的机构,通过伪分段数据进行训练,提供了一种稳健的方法来提升分段质量,同时为潜在终端用户提供预测信心的洞见。不确定性测量在临床采用中至关重要,因为它们有助于识别模型预测不确定的区域,使临床医生能够专注于可能需要进一步检查或验证的领域。 尽管原始SAM模型未对医学图像进行预训练,但在零射击环境中表现出优异表现,在提供不完美的视觉提示(如点和/或绑定)时,表现优于MedSAM和SAM-Med2D盒子。这强调了SAM对次优输入条件的鲁棒性,正如(Huang等,2024)所强调的那样。具体来说,这可以在图4中看到,即使是粗分段也可以通过零点和弱监督方法进行细化。展望未来,我们将重点扩展框架以处理3D医学数据,这是推进MRI和CT等体积成像方式分割的关键一步。引入3D模型将使我们的框架更好地捕捉复杂解剖结构,进一步提升其临床价值。总体来看,我们的发现表明,MedCLIP-SAMv2及其集成组件标志着通用交互式医学图像分割开发的重要一步。该框架在不同任务中的适应性以及能够以极少标签数据运行的能力,凸显了其在临床应用的潜力,尤其是在资源有限的环境中。在我们的探索中,我们专注于放射学任务,图像模态比自然图像更具明显特征。未来,我们将进一步纳入并评估基于照片的生物医学图像,如组织病理图像和手术视频的性能,纳入我们的提案框架。
总结
我们展示了MedCLIP-SAMv2,这是原始MedCLIP-SAM框架的升级版,显著提升了CT、X光、超声和MRI中最小监督下的分割性能。通过引入新颖的DHNNCE损耗技术用于微调BiomedCLIP并利用SAM,我们的模型在复杂任务中实现了更高的准确性。MedCLIP-SAMv2 通过更优越的泛化和细化的分割技术优于前代,展现出在数据有限环境中临床应用的强大潜力。
更多推荐
所有评论(0)