期刊:CVPR

年份:2024

代码:GitHub - Inha-CVAI/MADGNet: CVPR2024 Accepted Paper

摘要

深度神经网络的通用性在医学图像分割中起着至关重要的作用。然而,基于深度学习的医学图像分析往往忽略了频率方差的重要性,这是实现模态不可知性和域泛化模型的关键因素。此外,各种模型没有考虑到深度监督下多任务学习可能产生的潜在信息丢失,这是一个会损害模型表示能力的因素。为了应对这些挑战,我们提出了一种用于医学图像分割的模态不可知域可泛化网络 (MADGNet),它由两个关键组件组成:多尺度注意力 (MFMSA) 块和集成子解码模块 (ESM) 中的多频率。MFMSA块通过结合多频率和多尺度特征来细化空间特征提取的过程,特别是在捕获边界特征方面,从而为组织轮廓和解剖结构提供信息丰富的线索。此外,我们提出了 ESDM 来减轻深度监督多任务学习中的信息丢失,尤其是在从低分辨率进行大量上采样期间。我们评估了MADGNet在六种模式和15个数据集上的分割性能。通过广泛的实验,我们证明了MADGNet在各种模式下始终优于最先进的模型,展示了卓越的分割性能。这肯定了MADGNet作为医学图像分割的鲁棒解决方案,在各种成像场景中表现出色。

Introduce

研究背景:

  • 深度神经网络在医学图像分割中的泛化能力至关重要,但现有的深度学习方法往往忽略了频率变化的重要性,这是实现模态不可知和领域泛化模型的关键要素。
  • 医学图像分析中的传统分割算法由于医学图像的不均匀强度分布、意外伪影和严重噪声等问题,缺乏对新病人病例的泛化能力。

主要贡献:

  • 提出了一种新的医学图像分割网络,称为MADGNet(Modality-agnostic Domain Generalizable Network),它包含两个关键组件:多频多尺度注意力块(MFMSA)和集成子解码模块(ESDM)
  • MFMSA块通过结合多频和多尺度特征来细化空间特征提取过程,特别是捕获边界特征,为组织轮廓和解剖结构提供信息线索
  • ESDM旨在减轻在深度监督下的多任务学习中可能出现的信息丢失问题,尤其是在从低分辨率进行大幅上采样时

Method

  1. 多频多尺度注意力块(MFMSA)

    -MFMSA块是MADGNet的核心创新之一,它通过结合多频率和多尺度特征来增强空间特征的提取。
    -该模块使用多频通道注意力(MFCA)和2D离散余弦变换(2D DCT)来提取频率统计信息,并生成通道注意力图。
    -多尺度空间注意力(MSSA)则用于提取不同尺度上的区分性边界特征,并通过学习到的参数(αs i 和 βs i)控制前景和背景之间的信息流。
  2. 集成子解码模块(ESDM)

    -ESDM旨在解决在深度监督下的多任务学习中,由于大幅上采样可能导致的信息丢失问题。
    -该模块通过集成方式进行多任务学习,通过级联地补充上采样后的信息丢失,从而改善核心任务的预测。

 Multi-Frequency in Multi-Scale Attention Block

动机:人类视觉系统无缝集成多尺度和高频信息以准确解释环境。我们的方法反映了对不同尺度和频率视觉信息的全面分析,旨在增强医学领域的任务,如图 2 所示和人类视觉系统的操作算法。这一过程包含了医学图像病变大小的广泛变化,需要多尺度特征来精确分割肿瘤、息肉和细胞等区域。此外,由于医学图像由于模态特征表现出比Scale更高的频率方差,促进高频信息对于制作有效的医学图像分割模型至关重要。受这些见解推动,我们提出了多尺度注意(MFMSA)块中的创新多频率,有效地集成多尺度和高频信息,以有效地解决以前方法中经常被忽视的一个关键方面。MADGNet 和 MFMSA 块的整体架构如图 1 所示。并且,MFMSA 块可以分为三个步骤:1)尺度分解,2)MFCA,3)MSSA。

图2:每个模态的尺度与频率分布。Scale表示病变的大小,测量前景像素与像素总数的比率。频率由高频和全频功率谱比计算。我们观察到频率方差高于Scale,主要集中在解决其他方法中的各种大小。

 1.特征提取

预训练的ResNeSt网络作为特征提取的骨干网络,利用其分割注意力残差块来提取特征图。

 2.尺度分解

将输入特征图分解为多个尺度分支,每个分支在不同的尺度上操作,以捕获多尺度特征。输入特征图 𝑋𝑖​ 被分解为 𝑆 个不同尺度的分支,每个分支处理不同分辨率的特征图。

 3.多频通道注意力 (Multi-Frequency Channel Attention, MFCA)

MFCA使用2D离散余弦变换(2D DCT)来提取频率统计信息,并生成通道注意力图。2D DCT将图像表示为不同频率的余弦函数的加权和。

(1)每个尺度分支的特征可以用二维图像 D 的2D DCT来表征 :

 DCT Basis Image:

(2)利用Global Average Pooling、Global Max Pooling和Global Min Pooling将每个X_{i}^{s,k}压缩为Zavg、Zmax和Zmin, 通过使用两个全连接层在第 s 个尺度分支中聚合每个频率统计以产生通道注意图

其中W为全连接层,δ 和 σ 分别表示 ReLU 和 Sigmoid 激活函数。

(3)最后第 s 个尺度分支使用 M_{i}^{s} 重新校准特征图 S_{i}^{s} 

4.多尺度空间注意力 (Multi-Scale Spatial Attention, MSSA)

在MSSA之后进行残差连接:A是特征聚合函数

Ensemble Multi-task Learning with Deep Supervision 

动机:在多任务学习中,通常需要将低分辨率的特征图上采样到高分辨率以计算损失函数。这种剧烈的上采样可能会导致信息丢失,尤其是在预测详细边界和结构时,这会对模型的训练产生负面影响。

 前向流(Forward Stream)

后向流(Backward Stream) 

算法

 其中:

  • input:第i个MFMSA块细化特征映射Y_{i}
  • output:在第 i 个解码器核心任务预测 T_{i}^{i} 和子任务预测 \left \{ T_{i}^{s_{1}},T_{i}^{s_{2}},...,T_{i}^{s_{L}} \right \}

E-SDM通过集成不同任务的预测,有效地解决了在深度监督下的多任务学习中由于上采样导致信息丢失的问题,提高了医学图像分割的准确性和鲁棒性。

Results

表1。五种不同模式的分割结果与所见的临床设置。我们还与我们的方法和其他方法相比提供了单尾 t 检验结果 (P 值)。(·) 表示多个实验结果的标准差。
表 2. 五种不同模式的分割结果,具有看不见的临床设置。我们还与我们的方法和其他方法相比提供了单尾 t 检验结果 (P 值)。(·) 表示多个实验结果的标准差。

Conclusion

基于对各种模态和临床设置的广泛实验的结果,我们可以将MADGNet的有效性总结为三个关键方面:

  • 1)对于医学图像分割的设计,多尺度和多频特征被证明是关键。
  • 2)MFCA擅长从有噪声的医学图像特征图中提取鉴别特征,转化为通过MSSA获取更复杂的边界线索。
  • 3) E-SDM通过任务集合进行深度监督的多任务学习时,补偿了上采样导致的信息损失。

此外,我们的方法在分割 OD 和 OC 方面表现出出色的性能,不仅在二元分类中,而且在多标签分割中。总之,我们提出了一种新的医学图像分割模型MADGNet,该模型可用于各种模式和临床设置。它包括两个关键组件:MFMSA 块和 E-SDM,它在深度监督的多任务学习过程中提取不同的特征并补偿信息丢失。通过严格的实验,我们发现MADGNet是一个非常有效的模型,它超越了其他最先进的分割性能选项。此外,我们将专注于提高实际临床使用的内存效率。 

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐