CVPR 2025 | 自适应矩形卷积 Adaptive Rectangular Convolution for Remote Sensing Pansharpening
ARConv 可以自动根据卷积核的形状以及不同区域的特征,动态调整采样点的数量,使不同区域能够拥有合适数量的采样点,从而更高效地捕捉多尺度信息,提升特征提取的准确性和效率。(2) 选择卷积核采样点的数量。ARConv 通过自适应调整卷积操作,能够更好地处理不同分辨率的遥感图像(如低分辨率多光谱图像和高分辨率全色图像),在特征提取过程中充分考虑多尺度信息,有助于更有效地融合光谱和空间信息,生成高质量
题目:Adaptive Rectangular Convolution for Remote Sensing Pansharpening
会议:Conference on Computer Vision and Pattern Recognition 2025
论文:https://arxiv.org/abs/2503.00467
代码:https://github.com/WangXueyang-uestc/ARConv
年份:2025
单位:电子科技大学

图1。顶行:通过基于DL的方法进行遥感泛扫的综合流程图。最下面一行:我们的自适应矩形卷积(ARConv)的一个说明性例子,它有两个明显的优点:1)它的卷积核可以根据对象大小自适应地修改采样位置;2) 采样点的数量是在各种特征图上动态确定的,例如,实现5×3自适应矩形卷积,据我们所知,这是第一次尝试。
问题背景:
1、标准卷积的缺点:首先,它的采样位置固定在一个确定大小的方形窗口内,这限制了它变形的能力,从而阻止了它自适应地找到采样位置。其次,卷积核的采样点数量是预先确定的,这使得在不同尺度上自适应地捕获特征变得具有挑战性。
2、一些创新的卷积方法的缺点,没有考虑遥感图像中丰富的尺度信息。不能根据卷积核的形状调整采样点的数量,这进一步限制了它的性能。多尺度卷积虽能提取不同尺度信息,但卷积核大小固定,无法根据特征图内容自适应调整采样位置 。

图 2 展示了四种卷积核的工作原理:
- 标准卷积(a):采样位置固定在确定大小的方形窗口内,缺乏变形能力,难以自适应找到采样位置,且采样点数量预先确定。
- 可变形卷积(b):通过学习偏移量自适应调整每个采样点的位置以提取不同形状物体的特征,但可学习参数随核大小二次增长,在小数据集上难以收敛,且不能根据卷积核形状调整采样点数量。
- 多尺度卷积(c):能在同一特征图内提取不同尺度信息,但卷积核大小预先确定,可能导致尺度间特征融合不精确。
- 自适应矩形卷积(d,即 ARConv):卷积核可根据物体大小自适应修改采样位置,采样点数量可根据不同特征图动态确定
2.3. 动机
遥感图像在背景中表现出相当大的多样性,物体的大小差异很大。与使用固定大小的核相比,使用不同大小的卷积核从不同区域提取特征更有效。传统的形状自适应卷积可以修改采样位置以与对象形状对齐,但不能根据核的形状调整采样点的数量。此外,一些可变形策略需要学习许多参数,从而导致更高的计算成本。虽然多尺度卷积可以在同一特征图内捕获不同尺度的特征,但它们的核大小保持不变,因此无法根据特征图的内容自适应地调整采样位置。为了克服这些局限性,我们引入了自适应矩形卷积(ARConv),这是一种将卷积核的高度和宽度视为可学习参数的新模块。这允许内核的形状根据不同对象的大小动态调整。由于采样点均匀分布在矩形可变形区域内,ARConv可以根据每个特征图中学习核的平均大小灵活修改采样位置并调整点数。与传统的可变形卷积不同[5],我们的方法只需要学习两个参数,随着采样点数量的增加,计算开销最小化。为了进一步增强适应性,我们对核的输出应用仿射变换,提高了空间灵活性。
3.方法
本节详细介绍了ARConv和ARNet的设计。ARConv的实现遵循四个步骤:(1)学习卷积核的高度和宽度特征图。(2) 选择卷积核采样点的数量。(3) 生成采样图。(4) 卷积的实现。在ARNet中,U-Net[23,35]的标准卷积层被ARConv模块所取代,以更有效地捕获丰富的尺度信息,用于pansharpening任务。ARConv的总体架构如图3所示。
1. Adaptive Rectangular Convolution (ARConv)
ARConv主要应对传统卷积的局限性,即固定形状的卷积核无法适应不同尺度的目标。为了克服这一问题,ARConv 通过自适应调整卷积核的形状和采样点数量,更有效地提取遥感影像中的不同尺度信息。
主要特点
- 动态调整卷积核形状:传统卷积核通常是固定大小的正方形,而 ARConv 能够根据输入特征自适应调整卷积核的高度和宽度,形成不同形状的矩形卷积核,以适应不同尺度的地物。
- 动态调整采样点数量:除了调整形状,ARConv 还能自动调整卷积采样点的数量,使得不同区域可以有不同数量的采样点,提高对多尺度信息的捕捉能力。
- 结合仿射变换 (Affine Transformation):在卷积计算后,加入仿射变换,使得特征提取更加灵活,提高对复杂场景的适应性。
计算流程
- 学习卷积核的高度和宽度:通过一个子网络,预测每个像素点的卷积核高度和宽度,并确保其在合理范围内变化。
- 确定采样点数量:根据学习到的高度和宽度,决定该位置需要多少个卷积采样点,并调整其分布,使得不同区域的采样密度更符合影像特征。
- 生成采样映射:计算采样点在输入影像中的具体位置,并通过插值计算非整数坐标的像素值。
- 执行卷积运算:采用动态调整后的矩形卷积核进行特征提取,并在输出前结合仿射变换,进一步增强空间适应能力。

图3。ARConv架构概述。本模块由四个主要部分组成。第一部分介绍了卷积核高度和宽度的学习过程。第二部分重点介绍卷积核采样点数的选择过程。第三部分以网格中心位置p0为例,模拟采样图S的生成过程。最后一部分描述了ARConv的卷积运算过程。


3.2. ARNet架构
本节详细介绍了ARNet的构建,如图4所示。我们的网络从U-net架构[23,35]中汲取灵感,U-net架构是图像分割中的一种众所周知的模型,它使用具有跳过连接的编码器-解码器结构来保留空间信息。在ARNet中,我们用ARConv替换了ResBlock[14]中的标准卷积层。数据流如下:首先,对MS图像进行上采样以匹配PAN图像的分辨率,从而生成LRMS图像。接下来,PAN和LRMS图像沿着信道维度连接并输入到网络中。ARNet涉及一系列下采样和上采样步骤,不同深度的ARConv层会适应以找到各种尺度下特征提取的最佳参数。最后,将学习到的细节注入到LRMS图像中[6,15],对其进行细化,并产生具有增强分辨率和细节的最终输出图像。

自适应矩形卷积(ARConv)主要可以解决以下几方面的问题:
传统卷积在尺度适应性上的局限
传统卷积核通常是固定大小和形状(如常见的正方形),在处理遥感图像等包含不同尺度目标的场景时,难以兼顾大小差异较大的物体。比如在遥感图像中,既有微小的车辆,又有大面积的建筑物,固定的卷积核无法根据目标尺度灵活调整,导致对小目标特征提取不足,对大目标特征提取不全面。而 ARConv 能够根据输入特征自适应调整卷积核的高度和宽度,形成不同形状的矩形卷积核,使其能更好地贴合不同尺度的地物,有效提升对多尺度目标的特征提取能力。
采样点数量固定的弊端
传统卷积的采样点数量是预先设定好的,在面对图像中不同复杂程度和特征分布的区域时,无法做到灵活调整。例如在图像中细节丰富的区域,固定数量的采样点可能无法充分捕捉信息;在相对简单的区域,过多的采样点又会造成计算资源的浪费。ARConv 可以自动根据卷积核的形状以及不同区域的特征,动态调整采样点的数量,使不同区域能够拥有合适数量的采样点,从而更高效地捕捉多尺度信息,提升特征提取的准确性和效率。
对复杂场景特征提取的不足
在复杂的图像场景中,传统卷积在卷积计算后缺乏进一步的灵活调整机制,难以适应场景中各种变化的空间特征。而 ARConv 在卷积计算后结合仿射变换,能够对特征进行进一步的灵活调整和变换,增强了对复杂场景的适应性,使模型可以更好地处理具有不同旋转、缩放和倾斜等变换的图像,提升在复杂场景下的特征提取效果和模型的泛化能力。
遥感图像中光谱和空间信息融合的问题
在遥感图像处理中,需要将光谱信息和空间信息进行有效融合。ARConv 通过自适应调整卷积操作,能够更好地处理不同分辨率的遥感图像(如低分辨率多光谱图像和高分辨率全色图像),在特征提取过程中充分考虑多尺度信息,有助于更有效地融合光谱和空间信息,生成高质量的高分辨率多光谱图像,为后续的遥感图像分析和应用(如土地利用分类、环境监测等)提供更优质的数据基础。
数据集
我们评估了我们的方法在多个数据集上的有效性,包括WorldView3(WV3)传感器捕获的8频段数据,以及QuickBird(QB)和高分2(GF2)传感器捕捉的4频段数据。
通过对WV3、QB和GF2基准数据集的全面评估,ARNet的出色性能得到了充分证明。表1至表3提供了ARNet与各种最先进技术的详细比较,包括传统方法、通用深度学习方法和类似于拟议工作的基于卷积的专门深度学习方法,如LAGConv[16]和CANConv[9],更多细节可以在补充材料第6.3节中找到。
更多推荐
所有评论(0)