图像分割论文

D-Net: Dynamic large kernel with dynamic feature fusion for volumetric medical image segmentation

D-Net:面向三维医学图像分割的动态大核与动态特征融合方法

理解

三维医学图像分割:处理的是CT、MRI等产生的立体数据(比如一系列切片),而非单张二维图片。将图像中的每个三维像素(体素)分类,标记出不同的器官、肿瘤或组织区域,是诊断和治疗规划的关键步骤。

动态大核大核:指卷积神经网络中尺寸较大的卷积核。传统的小卷积核(如3x3x3)感受野小,主要捕捉局部特征。大核能提供更大的感受野,一次性“看到”更广阔的区域,有助于理解器官的整体结构和上下文关系。动态:传统大核是固定尺寸和参数的,无法自适应地处理形状、尺寸差异巨大的不同器官,D-Net使用多个不同尺寸和膨胀率的大核,并且能根据输入图像的内容自动调整和选择哪个核或哪些核的组合更重要。

动态特征融合特征融合:在U型网络等分割模型中,需要将深层网络的高级语义特征与浅层网络的低级细节特征进行融合,以获得精确的分割结果。动态:传统的特征融合方式是固定和均匀的,对所有区域一视同仁,无法突出重要信息。D-Net在融合不同层级的特征时,会根据特征的全局上下文信息,自适应地给重要的通道(哪些特征图关键)和重要的空间位置(图像中哪个区域关键)分配更高的权重。

摘要

分层视觉变换器(ViTs)凭借其大感受野和利用长程上下文信息的能力,在医学图像分割领域取得了显著成功。卷积神经网络(CNNs)亦可通过使用大卷积核来获得大感受野。然而,由于其使用固定尺寸的卷积核,采用大核的CNNs在自适应捕获形状和尺寸差异巨大的器官的多尺度特征方面能力仍然有限,同时也无法高效利用全局上下文信息。为应对这些局限,我们提出了轻量级的动态大核(DLK) 和动态特征融合(DFF) 模块。DLK采用具有不同核尺寸和膨胀率的多个大核来捕获多尺度特征。随后,DLK利用一种动态选择机制,基于全局信息自适应地突出最重要的通道和空间特征。提出的DFF则用于基于全局信息自适应地融合多尺度局部特征图。我们将DLK和DFF集成到一个分层ViT架构中,以利用其扩展性优势,但受限于ViT架构中的特征嵌入约束,该架构难以有效提取低级特征。为解决此问题,我们提出了一个显著性层,用于在图像原始维度上提取低级特征,而无需进行特征嵌入。该显著性层采用通道混合器来有效捕获全局表征。我们进一步将该显著性层整合到分层ViT架构中,从而构建了一个新颖的网络,称为D-Net。D-Net有效地利用了多尺度大感受野,并自适应地利用了全局上下文信息。大量实验结果表明,相较于现有先进模型,D-Net展现出更优的分割性能,且计算复杂度相对较低。代码发布于 https://github.com/sotiraslab/DLK

理解1

分层视觉变换器(ViTs):Transformer架构在计算机视觉领域的一种高效变体,它不像原始ViT那样将图像简单切割成序列,而是模仿了卷积神经网络金字塔式的分层结构,在不同层级处理不同尺度的特征,从局部细节到全局语义。

理解2

我们将DLK和DFF集成到一个分层ViT架构中,以利用其扩展性优势,但受限于ViT架构中的特征嵌入约束,该架构难以有效提取低级特征。为解决此问题,我们提出了一个显著性层,用于在图像原始维度上提取低级特征,而无需进行特征嵌入。该显著性层采用通道混合器来有效捕获全局表征。

特征嵌入约束:为了将图像输入给Transformer,必须将2D/3D图像切割成小块(Patch),然后通过一个线性投影层将这些小块映射(嵌入)到一个高维向量空间。关键点在于,这个过程通常伴随着大幅度的下采样。例如,一个 224x224 的图像,被切割成 16x16 的小块后,输入到Transformer的序列长度就只有 (224/16)^2 = 196 个令牌(Token)了。空间分辨率被极大地压缩了。这会导致低级特征丢失,但分割需要这些细节

显著性层用于在图像原始维度上提取低级特征,而无需进行特征嵌入

通道混合器:如果只是用几个小卷积层来提取低级特征,那又退回到了普通CNN的老路,无法利用Transformer的全局思维优势。通道混合器核心功能是让特征图的各个通道之间进行充分的信息交互工作原理:通常通过 1x1x1 卷积(全连接层在3D的等价形式)来实现。1x1x1 卷积不混合空间信息(不会模糊位置),但会跨通道进行线性组合和融合

创新点

旨在系统性地解决当前主流方法(特别是CNN和大核方法、ViT及其变体)在三维医学图像分割中存在的关键局限:

动态大核DLK模块

问题:传统CNN使用固定尺寸的大卷积核,难以自适应地捕捉形状和尺寸差异巨大的器官的多尺度特征,且缺乏有效利用全局上下文信息的机制。

创新

  1. 多尺度大核级联:采用多个不同尺寸(如5×5×5和7×7×7)和膨胀率(如1和3)的深度可分离大卷积核级联使用,而非简单地并行堆叠(如ASPP)。这种设计能递归地聚合上下文信息,形成巨大的等效感受野(约23×23×23),从而捕获更丰富、更细粒度的多尺度特征。
  2. 动态特征选择:引入一个动态选择机制。该机制首先通过全局平均池化和最大池化获取通道和空间上的全局信息,然后通过卷积和Sigmoid函数生成动态权重,自适应地校准和突出来自不同大核的最重要通道和空间特征。这使得网络能够根据输入内容动态调整特征重要性。
动态特征融合DFF模块

问题:在编码器-解码器架构中,如何自适应、有效地融合来自不同层级或尺度的特征是一个挑战。

创新

  1. 基于全局信息的自适应融合:DFF模块在融合多尺度特征时,不是简单地进行拼接或卷积,而是引入了通道级和空间级的双重动态选择机制。
  2. 动态选择流程:首先,利用从融合特征中提取的全局通道信息来生成权重,指导卷积层选择并保留最重要的特征图;接着,从待融合的特征中提取全局空间信息,生成空间权重图,用于突出显著的空间区域。整个过程实现了基于内容感知的自适应特征融合
显著性层

问题:基于ViT的分割模型通常首先通过卷积干(convolutional stem)对输入图像进行下采样和嵌入,这会导致丢失对分割至关重要的细粒度、像素级低级特征(如边缘、纹理),从而影响边界精度和小器官分割。

创新

  1. 绕过特征嵌入,提取原始分辨率特征:提出一个独立的Salience层,直接在输入图像的原始空间维度(H×W×D)上操作,避免了早期下采样造成的信息损失。
  2. 通道混合器(Channel Mixer):该层的核心是一个具有全局感受野的Channel Mixer模块。它通过通道投影、深度卷积和激活函数等操作,有效地在通道间进行特征交互和混合,从而从原始图像中学习到具有全局表示能力的低级特征。这些特征随后与解码器的高级特征进行融合。
整体网络架构

创新整合:将上述三个创新模块(DLK, DFF, Salience)有机地整合到一个U形分层视觉Transformer架构中,形成了一个统一的、强大的分割网络D-Net。

  1. 编码器:用DLK模块替换了标准分层ViT块中的自注意力机制,使其在保持Transformer扩展性优势的同时,极大地增强了局部特征提取和多尺度上下文捕获能力
  2. 解码器与特征融合:在跳跃连接处使用DFF模块,自适应地融合编码器多尺度特征与解码器上采样特征。
  3. 低级特征增强:在解码器末端引入Salience层,将其提取的丰富低级特征与解码器输出融合,最后通过卷积层生成体素级分割预测。

核心优势:D-Net因此同时具备了:1) 大感受野与多尺度特征捕获能力(来自DLK);2) 自适应特征融合能力(来自DFF);3) 精细的低级特征保留能力(来自Salience层);4) 可扩展的架构效率(来自分层ViT设计)。

An active contour model based on Kullback–Leibler divergence and morphology for image segmentation with edge leakage

一种基于Kullback-Leibler散度与形态学的主动轮廓模型及其在边缘泄漏图像分割中的应用

理解

主动轮廓模型:是一种经典的、基于能量最小化原理的图像分割方法

Kullback-Leibler散度:用于衡量两个概率分布之间的差异,在图像中,可以理解为比较“目标区域”和“背景区域”的灰度统计特性

边缘泄漏:传统主动轮廓模型在复杂图像中常见的失败情况,指轮廓线没有被准确“吸”在目标的真实边界上,而是穿过了薄弱或模糊的边界,“泄漏”到了背景或其他物体中。通常由强噪声、弱对比度、光照不均导致,使得模型无法正确判断哪里才是该停下的“边缘”。

摘要

强度不均匀性与边缘泄漏问题往往导致传统图像分割方法在光照不均、噪声严重等条件下失效。大多数主动轮廓模型在处理此类含噪声且强度不均匀的图像时表现欠佳。为缓解这些问题,本文提出一种基于Kullback-Leibler散度与数学形态学的鲁棒主动轮廓模型,用于分割强度不均匀的图像。该模型将Kullback-Leibler散度应用于局部能量项,以区分局部区域内真实分布与拟合分布之间的强度差异,并融入了Retinex建模理论。通过形态学算子计算拟合偏差公式,以修正强度波动方差并减轻由噪声和光照不均引起的边缘泄漏。数据优化函数与平均滤波减少了迭代过程中的累积误差,确保了轮廓的正确演化。在多种真实与合成图像上的实验结果表明,所提模型的平均交并比稳定收敛于0.9以上,在准确性与鲁棒性上全面优于现有多种先进模型。

理解1

大多数主动轮廓模型在处理此类含噪声且强度不均匀的图像时表现欠佳。

对“强度不均匀”失效:很多模型假设目标和背景的灰度是全局均匀或可用简单函数拟合的。它们通过比较轮廓内外区域的平均灰度来驱动轮廓。在强度不均匀的图像中,目标物体内部的灰度差异,可能与目标和背景之间的灰度差异一样大,甚至更大。轮廓在演化时,会因为物体内部较暗的部分与背景灰度相似而“泄漏”出去(边缘泄漏),或者因为物体内部较亮的部分与背景差异明显而错误地停止在内部,导致分割不全

对“噪声”失效:模型依赖图像梯度(边缘强度)来吸引轮廓。轮廓会被“拉”向图像中梯度大的地方。噪声会产生大量细碎、随机的高梯度点(假边缘)。同时,真正的弱边界可能梯度值并不突出。轮廓线会被无数的噪声点吸引,变得支离破碎,无法到达真正的目标边界。真正的弱边界信号被噪声淹没,导致轮廓无法感知,从而穿过弱边界,再次造成泄漏。

理解2

该模型将Kullback-Leibler散度应用于局部能量项,以区分局部区域内真实分布与拟合分布之间的强度差异,并融入了Retinex建模理论。

传统模型直接比较像素的灰度值,但KLMM模型比较的是灰度值的概率分布

局部区域内真实分布与拟合分布真实分布:局部窗口内,图像像素灰度值实际形成的统计直方图。它反映了这个局部区域真实的明暗构成。拟合分布:模型根据当前轮廓的位置,预估出来的一个理想的分布。

区分强度差异:传统方法可能只比较窗口内外的平均灰度。KL散度则比较整个分布的形状

Kullback-Leibler散度应用于局部能量项KL散度的作用:用于量化两个分布之间的“距离”或“差异度”。差异越大,KL散度值越大。在主动轮廓模型中,“能量项”驱动轮廓运动。KL散度值被直接用作能量项的一部分。模型的目标是最小化这个能量。轮廓会朝着能让“真实分布”与“拟合分布”差异最小化的方向移动。

融入了Retinex建模理论:它认为我们看到的图像(I)是光照分量(B) 和 物体反射分量(R) 的乘积(I = B × R)。光照不均匀主要影响B,而物体的本质属性(如纹理、边界)体现在R中。KLMM模型在应用KL散度时,不是直接对原始图像灰度进行操作,而是对其对数域进行操作。通过这种建模,KL散度在区分分布时,能更侧重于由物体反射属性(R) 决定的本质差异,而非由不均匀光照(B) 造成的表观差异。这相当于先“剥离”了光照的影响,再进行比较,从而极大地提升了模型对光照不均的鲁棒性。

理解3

通过形态学算子计算拟合偏差公式,以修正强度波动方差并减轻由噪声和光照不均引起的边缘泄漏。数据优化函数与平均滤波减少了迭代过程中的累积误差,确保了轮廓的正确演化。

通过形态学算子计算拟合偏差公式:KLMM模型采用了数学形态学中的两个基本操作:

  1. 腐蚀:取邻域内灰度的最小值。它能抹除明亮的噪声点和小细节,更接近背景的亮度估计。
  2. 膨胀:取邻域内灰度的最大值。它能填补暗色的噪声孔洞,更接近前景(目标) 的亮度估计。

模型直接用腐蚀操作的结果作为背景亮度估计,用膨胀操作的结果作为前景亮度估计,从而快速构建出拟合偏差场。

带来的两大好处:

  1. 修正强度波动方差:通过形态学操作得到的亮度估计,比原始像素值更稳定、更平滑,有效压制了局部区域的随机灰度波动,使后续的分布比较(KL散度)更可靠。
  2. 减轻边缘泄漏:形态学操作天然具有去噪和边界增强的特性

创新点

其核心目标是解决图像分割中由光照不均、噪声干扰导致的 “强度不均匀性” 和 “边缘泄漏” 两大经典难题。论文提出的KLMM模型(基于Kullback-Leibler散度与数学形态学的模型)是一个创新性的混合主动轮廓模型

Kullback-Leibler散度与Retinex模型的结合

解决的问题:传统区域型主动轮廓模型在处理强度不均匀的图像时,难以准确区分目标与背景的灰度分布。

创新方法

  1. 引入KL散度(相对熵):将其用作局部能量项。KL散度是衡量两个概率分布差异的严格数学工具。在模型中,它用于度量图像局部区域内真实灰度分布模型拟合分布之间的差异。
  2. 整合Retinex理论:Retinex理论认为,观测到的图像是光照分量反射分量的乘积。KLMM模型将对数域的Retinex模型(i = b + r + n)融入到KL散度的计算框架中。

带来的优势

  1. 更强的分布区分能力:相比简单的欧氏距离,KL散度能更敏锐地捕捉目标与背景在统计分布上的根本差异,对不均匀光照有更好的理论适应性。
  2. 物理意义明确:通过Retinex分解,模型旨在分离出不受光照影响的反射分量,这使得能量最小化的过程更直接地针对物体的“本质”特征,而非受光照干扰的表象。
基于形态学算子的拟合偏差函数

解决的问题:噪声和纹理干扰会导致模型在演化时产生“边缘泄漏”,即轮廓穿过真实的弱边界或噪声区域。

创新方法

  1. 构建加性拟合偏差场:提出一个由形态学算子(腐蚀与膨胀)直接计算的加性偏差场 b^T(y, φ),来替代传统模型中通过复杂迭代估计的偏差场。
  2. 利用形态学特性:对图像的对数域分量 i,分别使用腐蚀算子 (i⊖s) 和膨胀算子 (i⊕s) 来计算背景和前景的强度估计值 b1 和 b2。

带来的优势

  1. 有效抑制噪声与细节干扰:形态学的腐蚀操作能抑制小颗粒噪声和无关细节,膨胀操作能连接断裂区域、增粗轮廓。这使得构建的拟合偏差函数能更清晰地反映目标的二阶微分特征(即边缘),如图4(b)所示,相比传统方法(图4c)边界特征更锐利、规则。
  2. 计算高效,定位更准:该方法无需在迭代中进行复杂的卷积运算来估计偏差场,计算效率更高。同时,它能产生更准确的边界定位信号,减少将目标部分误判为背景(边缘泄漏)的可能性
数据驱动项优化与平均滤波平滑

解决的问题:在演化过程中,数据驱动项的值域可能变化很大,导致曲线演化不稳定;同时,水平集函数在迭代中易偏离符号距离函数特性,变得不平滑。

创新方法

  1. 数据项优化函数:引入一个非线性函数 csign(x) = x³/(1+|x³|) 对数据驱动项 e_dau 进行压缩。
    • 作用:将该函数的值域限制在 (-1, 1) 之间,增强在零交叉点附近的敏感性,同时抑制两侧过大的值。这实现了曲线演化幅度的自适应调整,提高了对不同图像方差的鲁棒性。
  2. 平均滤波平滑:在每次水平集函数迭代更新后,采用一个均值滤波器 M(φ) 对其进行平滑。
    • 作用去除冗余曲线、加速演化、保持轮廓平滑,避免了计算量大的重新初始化过程。

带来的优势

  1. 稳定的演化过程:结合优化函数和滤波平滑,确保了轮廓曲线能够平稳、准确地演化至真实边界,避免震荡、发散或陷入局部最优。
  2. 更强的适应性:使模型对不同对比度、不同噪声水平的图像具有更广泛的适应性。
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐