[CVPR 2026]SegMoTE：基于Token级混合专家的医学图像分割

alfred_torres

591人浏览 · 2026-03-16 13:52:09

alfred_torres · 2026-03-16 13:52:09 发布

CVPR 2026 | 仅需17M参数！SegMoTE：基于Token级混合专家的医学图像分割

论文题目：SegMoTE: Token-Level Mixture of Experts for Medical Image Segmentation
作者机构：Yujie Lu, Jingwen Li 等（四川大学、新疆大学、福州大学、阿里巴巴达摩院）
关键词：Medical Image Segmentation, Segment Anything Model (SAM), Mixture of Experts (MoE), Parameter-Efficient Fine-Tuning

1. 🚀 省流版摘要 (TL;DR)

将 SAM 等视觉基础模型迁移到医学图像领域时，通常面临模态差异大和微调成本高/易遗忘的难题。本文提出了 SegMoTE 框架，在冻结 SAM 图像编码器的前提下，引入了Token级别的混合专家机制（MoTE）。它能根据不同的医学影像模态（CT、MRI、X-ray等）动态路由并激活专属的“专家 Token”。此外，作者还设计了渐进式提示Token化（PPT），实现了无需人工交互的全自动分割。搭配作者精心清洗的仅包含 15万高质量数据的小型数据集 MedSeg-HQ，SegMoTE 仅需训练 17M 参数，就在多个域内和跨域数据集上超越了全面微调的现有 SOTA 模型。

2. 🧐 背景与痛点 (Motivation)

痛点一：缺乏模态自适应能力
医学图像包含 CT、MRI、超声、皮肤镜等多种模态，差异巨大。现有的医学 SAM 模型（如 MedSAM、IMIS）通常将所有模态数据混合在一起进行全参数微调或解码器微调。这会导致模型输出的 Token 趋于同质化，削弱了模型捕捉跨模态语义差异的能力（即“负迁移”）。
痛点二：盲目追求数据规模，引入噪声
现有方法倾向于构建极其庞大的数据集（如百万级甚至亿级 mask），这不仅训练成本极高，而且未经过滤的低质量数据会带来监督噪声，导致模型发生分布偏移（Distribution Shift），破坏 SAM 原本强大的零样本泛化能力。
痛点三：交互成本高
在一些单类别/稀疏类别的分割任务中（如皮肤病变、胸部X光），每次都需要医生手动提供点或框作为提示（Prompt），增加了临床使用的操作负担。

3. 💡 核心方法 (Methodology)

SegMoTE 框架的核心在于“轻量”和“动态路由”，包含以下三个关键创新：

3.1 Token级混合专家机制 (MoTE: Mixture of Token Experts)

机制原理：作者在 SAM 的 Mask Decoder 中引入了一组可学习的“专家 Token”（Expert Tokens）。在解码器的自注意力层和交叉注意力层中，这些 Token 会与图像特征和提示特征进行交互。
动态路由：利用一个轻量级的路由器（Router），计算当前图像特征与各个专家 Token 的匹配得分。模型会根据得分（Top-k）动态选择最适合当前模态的专家 Token 进行后续的掩码预测。
负载均衡：为了防止模型“偷懒”只使用某几个固定的专家，作者引入了基于变异系数（(CV^2)）的负载均衡损失 (\mathcal{L}_{\text{balance}})，强制模型均衡地利用所有专家。

3.2 渐进式提示Token化 (PPT: Progressive Prompt Tokenization)

全自动分割：针对二分类任务（如前景/背景区分明显的病灶分割），PPT 模块通过多头注意力机制，利用随机采样的掩码和文本提示来引导一个可学习的 Query。
作用：在训练过程中，这个 Token 会逐渐学会区分前景和背景。在推理阶段，模型可以直接使用这个学习到的 Token 作为 Prompt，完全摆脱了对人工提供点或框的依赖，实现了零交互的自动化分割。

3.3 MedSeg-HQ 高质量数据集 (少即是多)

作者没有使用百万级的数据集，而是从 12 个公开数据集中，通过 5 位专家的质量评估体系（基于清晰度、对比度、熵、前景比例等），精挑细选出了 154,569 个高质量的 Mask。
实验证明，使用这 1% 规模的高质量数据进行训练，模型的特征分布更加平滑，泛化能力远超在海量嘈杂数据上训练的模型。

4. 📊 实验与结果 (Experiments)

极高的参数效率：SegMoTE 仅需训练 17M 参数（MoTE 占 10M，PPT 占 7M），仅为 SAM 原始参数量（1191M）的约 1.4%。
域内表现 (In-domain)：在 AMOS, BTCV, CHAOS, ISIC 等数据集上，无论是单点交互还是边界框交互，SegMoTE 均取得了最优的 Dice 分数。
跨域泛化 (Zero-shot Out-of-domain)：在未见过的 ISLES (中风病灶)、SegThor (胸部器官)、TotalSegmentator (MRI) 数据集上，SegMoTE 展现了惊人的零样本能力。特别是在 ISLES 数据集上，相比第二名提升了 7%。
专家路由的可解释性：可视化结果（图7）表明，MoTE 确实学会了针对不同的模态（如 CT vs MRI vs 皮肤镜）激活不同的专家 Token，证明了路由机制的有效性。

5. 🧠 总结与亮点 (Conclusion)

这篇文章的思路非常具有启发性。在医疗大模型“卷数据量、卷参数量”的当下，本文提供了一个教科书级别的反向操作范例：

架构上：用 MoE 思想解决多模态冲突，用极少的参数（Token级别）实现了模态解耦。
数据上：证明了“Data Quality > Data Quantity”，15万精洗数据打败了百万级粗糙数据。
交互上：通过 PPT 模块，在保留 SAM 交互能力的同时，打通了临床最需要的“全自动一键分割”路径。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git