概述

在过去十年中,计算机视觉领域经历了一场根本性的变革,这主要归功于视觉转换器(Visual Transformers)的引入。这一变革同样影响了医学成像领域,其中UNet架构通过采用转换器技术进行了重要重构,成为了该领域内极具影响力的模型之一。

近期的研究,如ConvNext,重新评估了卷积模型在视觉任务中的有效性,这一工作启发了我们对现有技术的进一步改进。我们的目标是提升传统的纯卷积UNet模型,使其在性能上能与基于Transformer的模型如Swin-Unet和UCTransNet相媲美。

在本篇综述文章中,我们深入探讨了基于Transformer的UNet模型的优势,尤其是在全局特征提取和跨层连接方面的能力。为了模拟这些优势,我们采用了卷积运算,并提出了ACC-UNet——一种完全基于卷积的UNet模型。ACC-UNet不仅继承了卷积网络的固有感应偏差,还具备了提取全局特征的能力,这使得它能够结合两种方法的优点。

在五个不同的医学图像分割基准测试中,ACC-UNet的性能始终超越了传统的卷积网络、Transformer模型以及它们的混合体。特别值得注意的是,在模态得分上,ACC-UNet分别比当前最先进的模型Swin-Unet和UCTransNet高出2.64% ± 2.54%和0.45% ± 1.61%,同时使用的参数量仅为它们的59.26%和24.24%,这表明ACC-UNet在效率和性能之间实现了卓越的平衡。

这一成果不仅展示了ACC-UNet在医学图像分割领域的潜力,也突显了通过创新的网络设计来推动技术进步的重要性。随着进一步的研究和开发,ACC-UNet及其衍生模型有望在医学成像和其他相关领域中发挥更大的作用。

论文地址:https://arxiv.org/abs/2308.13680
源码地址:https://github.com/kiharalab/acc-unet

模型方法

图 1:拟议方法概述。

ACC-UNet 一览

整体概览如图 1-A 所示。建议的方法用引入自注意的 HANC 块取代了传统的 U-Net 卷积块。此外,传统的简单跳转连接也被 MLFC 模块取代,后者考虑到了不同编码器级别的特征图。下面各小节将详细介绍 HANC 和 MLFC 模块。

分层聚合邻里情境(HANC)

首先,我们考虑了如何在卷积块中引入长程依赖关系并提高其表达能力。为了降低计算复杂度,我们只使用逐点卷积和逐深卷积。

为了提高表示能力,建议在卷积块中加入一个反向瓶颈。这可以通过逐点卷积将通道数从 cin 增加到 cinv = cin∗invf来实现。由于这些额外的通道增加了模型的复杂度,因此采用 3x3 逐深卷积来降低计算复杂度,如图 1-B 所示。

为了提高提取全局特征的能力,在卷积块中模仿了自注意力。它主要是将一个像素与其邻近的其他像素进行比较。这种比较可以通过与邻近像素的平均值和最大值进行比较来简化。将邻近像素特征的平均值和最大值相加,就可以得到邻近比较的近似概念。然后,在逐点连续卷积的基础上考虑这些因素,并捕捉对比视角。由于分层分析有利于图像,因此这种聚合是在多层次上分层计算的。例如,2k-1 x 2k-1 补丁。

拟议的 HANC 将特征图 x1∈R cinv,n,m 扩展为 x2∈R cinv∗(2k-1),n,m(图 1-B)。 || 表示沿信道维度的连接。

然后,与变换器一样,在卷积块中加入捷径连接,以改善梯度传播。因此,再进行一次点式卷积,将通道数减少到 cin,并添加到输入特征图中。因此,x2∈ R cinv∗(2k-1),n,m 变成了 x3∈ R cin,n,m(图 1-B)。

最后,将输出数改为 c_out 作为输出。为此,采用了逐点卷积法(图 1-B)。

多级特征编译 (MLFC)

接下来,我们将研究基于变压器的联合国数据集的另一个优势–多级特征组合的可能性。

基于变压器的跳转连接可有效融合编码器层面的特征,并确保在各个解码器上对特征图进行适当过滤。这可以通过连接不同级别的标记来实现。

本文沿用了这一方法,通过调整不同编码器级别的卷积特征图的大小,将其合并为相同大小。然后合并来自不同语义层的特征图,并通过逐点卷积操作将其汇总。然后再与相应的编码器特征图相结合,通过另一次卷积来整合信息。

对于来自四个不同层级的特征 x1、x2、x3 和 x4,特征图谱将丰富多层级信息,如下式所示(图 1-D)。

这里,resizei(xj) 是将 xj 调整为 xi 大小的操作,ctot = c1 + c2 + c3 + c4。该操作对所有不同层级分别执行。

实验与测试

数据集

为了评估 ACC-UNet 的性能,我们在五个不同任务和模式的公开数据集上进行了实验:ISIC-2018(皮肤科,2594 幅图像)、BUSI(乳腺超声波,437 幅良性图像和 210 幅恶性图像)、CVC-ClinicDB(结肠镜检查,612 幅图像)、COVID(肺炎病灶分割,100 幅图像)和 GlaS(腺体分割,85 幅训练图像和 80 幅测试图像)、612幅图像)、COVID(肺炎病灶分割,100幅图像)和 GlaS(腺体分割,85幅训练图像和80幅测试图像)。

所有图像和掩码的大小均调整为 224 × 224;对于 GlaS 数据集,原始测试分割被视为测试数据。对于其他数据集,随机选择 20% 的图像作为测试数据。其余 60% 和 20% 的图像分别用于训练和验证,并以不同的随机洗牌方式重复实验三次。

与传统方法的比较 SOTA

表 1.SOTA 与传统方法的比较结果

所提议的方法与 UNet、MultiResUNet、Swin-Unet、UCTransnet 和 SMESwin-Unet 进行了比较。表 1 显示了测试集的模态得分。

在一个相对较大的数据集(ISIC-18)上,基于变换器的 Swin-Unet 取得了第二好的成绩。另一方面,在一个较小的数据集(GlaS)上,轻量级卷积模型(MultiResUNet)取得了第二好的成绩。在其他数据集上,混合模型(UCTransnet)是第二好的方法;SMESwin-Unet 尽管有大量参数,但在所有情况下都落在了后面。

另一方面,ACC-UNet 将变压器的设计原理与卷积神经网络的感应偏置相结合,在所有不同类别中取得了最佳性能。

五个数据集的模态得分分别提高了 0.13%、0.10%、0.63%、0.90% 和 0.27%。因此,ACC-UNet 不仅精度高,而且有效地使用了相对较小的参数:就 FLOPs 而言,所提出的方法与卷积 UNet 相当,因为基于变压器的 UNet 在片段分割过程中会进行大量的下采样、更小的 FLOP。

对五个数据集进行定性评估

ACC-UNet 不仅获得了更高的模数分数,而且产生了明显更好的质量结果。

图 2 显示了 ACC-UNet 与其他模型的定性比较。图中每行包含每个数据集的一个示例,右侧两列显示 ACC-UNet 预测的分割和地面实况掩膜 在 ISIC-18 数据集的第一个示例中,模型没有过度分割,并遵循了病变的边界在来自 CVC-ClinicDB 的第二个示例中,模型几乎能够完美地区分手指和息肉。

然后,在 BUSI 数据集的第三个样本中,所提方法的预测过滤掉了左侧明显的结节区域,但排除了所有其他模型错误检测出的肿瘤。同样,在 COVID 数据集的第四个样本中,提出的方法能够直观地对左肺凝血间隙进行更好的建模,因此获得的模态得分比第二好的方法高出 2.9%。

从最后一个例子,即 GlaS 数据集来看,所提出的方法不仅准确预测了右下角的腺体,还单独识别了左上角的腺体,而这些腺体大多被其他模型所遗漏或合并。

图 2.对五个数据集的定性评估。

总结

在这项实验中,我们认识到了变换器不同设计范式的优势,并研究了类似想法在卷积 UNet 中的适用性。结果表明,拟议的 ACC-UNet 具有 CNN 的归纳偏置,并融合了转换器的长程和多级特征积累。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐