CVPR 2026 | 仅需17M参数!SegMoTE:基于Token级混合专家的医学图像分割

论文题目:SegMoTE: Token-Level Mixture of Experts for Medical Image Segmentation
作者机构:Yujie Lu, Jingwen Li 等(四川大学、新疆大学、福州大学、阿里巴巴达摩院)
关键词:Medical Image Segmentation, Segment Anything Model (SAM), Mixture of Experts (MoE), Parameter-Efficient Fine-Tuning


1. 🚀 省流版摘要 (TL;DR)

将 SAM 等视觉基础模型迁移到医学图像领域时,通常面临模态差异大微调成本高/易遗忘的难题。本文提出了 SegMoTE 框架,在冻结 SAM 图像编码器的前提下,引入了Token级别的混合专家机制(MoTE)。它能根据不同的医学影像模态(CT、MRI、X-ray等)动态路由并激活专属的“专家 Token”。此外,作者还设计了渐进式提示Token化(PPT),实现了无需人工交互的全自动分割。搭配作者精心清洗的仅包含 15万高质量数据的小型数据集 MedSeg-HQ,SegMoTE 仅需训练 17M 参数,就在多个域内和跨域数据集上超越了全面微调的现有 SOTA 模型。


2. 🧐 背景与痛点 (Motivation)

  • 痛点一:缺乏模态自适应能力
    医学图像包含 CT、MRI、超声、皮肤镜等多种模态,差异巨大。现有的医学 SAM 模型(如 MedSAM、IMIS)通常将所有模态数据混合在一起进行全参数微调或解码器微调。这会导致模型输出的 Token 趋于同质化,削弱了模型捕捉跨模态语义差异的能力(即“负迁移”)。
  • 痛点二:盲目追求数据规模,引入噪声
    现有方法倾向于构建极其庞大的数据集(如百万级甚至亿级 mask),这不仅训练成本极高,而且未经过滤的低质量数据会带来监督噪声,导致模型发生分布偏移(Distribution Shift),破坏 SAM 原本强大的零样本泛化能力。
  • 痛点三:交互成本高
    在一些单类别/稀疏类别的分割任务中(如皮肤病变、胸部X光),每次都需要医生手动提供点或框作为提示(Prompt),增加了临床使用的操作负担。

3. 💡 核心方法 (Methodology)

SegMoTE 框架的核心在于“轻量”和“动态路由”,包含以下三个关键创新:

3.1 Token级混合专家机制 (MoTE: Mixture of Token Experts)
  • 机制原理:作者在 SAM 的 Mask Decoder 中引入了一组可学习的“专家 Token”(Expert Tokens)。在解码器的自注意力层和交叉注意力层中,这些 Token 会与图像特征和提示特征进行交互。
  • 动态路由:利用一个轻量级的路由器(Router),计算当前图像特征与各个专家 Token 的匹配得分。模型会根据得分(Top-k)动态选择最适合当前模态的专家 Token 进行后续的掩码预测。
  • 负载均衡:为了防止模型“偷懒”只使用某几个固定的专家,作者引入了基于变异系数((CV^2))的负载均衡损失 (\mathcal{L}_{\text{balance}}),强制模型均衡地利用所有专家。
3.2 渐进式提示Token化 (PPT: Progressive Prompt Tokenization)
  • 全自动分割:针对二分类任务(如前景/背景区分明显的病灶分割),PPT 模块通过多头注意力机制,利用随机采样的掩码和文本提示来引导一个可学习的 Query。
  • 作用:在训练过程中,这个 Token 会逐渐学会区分前景和背景。在推理阶段,模型可以直接使用这个学习到的 Token 作为 Prompt,完全摆脱了对人工提供点或框的依赖,实现了零交互的自动化分割。
3.3 MedSeg-HQ 高质量数据集 (少即是多)
  • 作者没有使用百万级的数据集,而是从 12 个公开数据集中,通过 5 位专家的质量评估体系(基于清晰度、对比度、熵、前景比例等),精挑细选出了 154,569 个高质量的 Mask。
  • 实验证明,使用这 1% 规模的高质量数据进行训练,模型的特征分布更加平滑,泛化能力远超在海量嘈杂数据上训练的模型。

4. 📊 实验与结果 (Experiments)

  • 极高的参数效率:SegMoTE 仅需训练 17M 参数(MoTE 占 10M,PPT 占 7M),仅为 SAM 原始参数量(1191M)的约 1.4%。
  • 域内表现 (In-domain):在 AMOS, BTCV, CHAOS, ISIC 等数据集上,无论是单点交互还是边界框交互,SegMoTE 均取得了最优的 Dice 分数。
  • 跨域泛化 (Zero-shot Out-of-domain):在未见过的 ISLES (中风病灶)、SegThor (胸部器官)、TotalSegmentator (MRI) 数据集上,SegMoTE 展现了惊人的零样本能力。特别是在 ISLES 数据集上,相比第二名提升了 7%
  • 专家路由的可解释性:可视化结果(图7)表明,MoTE 确实学会了针对不同的模态(如 CT vs MRI vs 皮肤镜)激活不同的专家 Token,证明了路由机制的有效性。

5. 🧠 总结与亮点 (Conclusion)

这篇文章的思路非常具有启发性。在医疗大模型“卷数据量、卷参数量”的当下,本文提供了一个教科书级别的反向操作范例:

  1. 架构上:用 MoE 思想解决多模态冲突,用极少的参数(Token级别)实现了模态解耦。
  2. 数据上:证明了“Data Quality > Data Quantity”,15万精洗数据打败了百万级粗糙数据。
  3. 交互上:通过 PPT 模块,在保留 SAM 交互能力的同时,打通了临床最需要的“全自动一键分割”路径。
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐