基于深度学习的遥感图像小目标检测技术研究

本文提出了一种基于YOLOv11改进的遥感图像小目标检测算法YOLOv11_ACMix。该方法采用Transformer架构增强特征提取能力，并创新性地引入ACMix模块，融合自注意力机制与卷积运算的优势，有效提升小目标检测性能。实验在DOTA数据集上验证，结果显示改进后的模型在精度、召回率等指标上优于传统方法，且训练收敛稳定。该研究为复杂场景下小目标检测提供了有效解决方案，具有实际应用价值。

2501_92218442

1441人浏览 · 2025-08-11 08:53:52

2501_92218442 · 2025-08-11 08:53:52 发布

导读：

本文针对遥感图像小目标检测中存在的特征提取困难、背景干扰严重以及检测精度和速度难以平衡等问题，深入探讨了多种创新方法。通过对相关算法如YOLOv11系列的改进，引入新型模块与机制，显著提升了小目标检测性能。在多个公开数据集及自建数据集上的实验表明，改进后的算法在小目标检测的准确率、召回率等指标上有显著提升，为遥感图像小目标检测的实际应用提供了有力的技术支持与参考。

作者信息：

余江, 杨晓青*：南昌职业大学校长办公室，江西南昌

正文

YOLOv11模型结构及工作原理

1、YOLOv11模型结构

YOLOv11是Ultralytics公司于2024年官方发布的最新一款基于图像的深度学习模型。YOLOv11摒弃传统的卷积神经网络(CNN)骨干，转而采用Transformer架构。Transformer通过自注意力机制，能够有效捕捉长距离依赖关系，克服了CNN感受野的限制，尤其在检测小目标时表现出色。比如在复杂场景的遥感图像中，微小的建筑物或车辆等小目标，以往的CNN骨干网络可能难以精准识别，而YOLOv11的Transformer骨干网络可通过全局上下文信息，更准确地定位和分类这些小目标。其性能指标相较于前代产品有质的提高，如图1所示。

YOLOv11的网络结构如下图2所示。

2、基于ACMix的自注意力机制的遥感图像小目标检测算法

ACMix乃是一种融合型架构，它巧妙地结合了自注意力单元与卷积运算各自的长处。其核心理念在于，传统卷积处理及自注意力模块中的多数运算均可借由1 × 1卷积高效完成。ACMix在初始运作时，使用1 × 1卷积来投射输入的特征图谱，进而生成一系列中间状态的特征表达。之后，它会依据自注意力或卷积这类相异的计算范式，对这些中间特征分别进行复用与整合。如此设计使得ACMix既能利用自注意力的全局感知优势，又能通过卷积捕捉局部细微特征，从而在控制运算成本的同时，提升模型整体性能。整体算法结构如图7所示。

ACMix模型关键的改良机制可归纳为两大方面。其一为自注意力与卷积的协同整合。此法将自注意力技术及卷积技术加以融合，旨在实现两者优点的结合。其二则是运算的解析及重塑。此概念是指将传统的卷积运算和自注意力运算予以拆分，随后重新构建为效率更高的形式。

数据集构建与处理

1. 数据集的获取

在机器学习任务中，特别是在目标侦测方面，合适的数据集选择至关重要。数据集不仅直接影响着模型的表现与精确度，还会对实际应用效果产生长远影响。为完成目标识别任务，本实验中使用的是DOTA数据集，是由Google earth等卫星拍摄，数据集由12,013张图像组成，包含188,282个实例，共有15种分类。如图10所示，该数据集有15种不同的目标分类，分别为飞机、棒球场、桥梁、操场跑道、小型车辆、大型车辆、轮船、网球场、篮球场、储油罐、足球场、环路、港口、游泳池和直升机。图片的分辨率范围从400 × 400至4000 × 4000，涵盖了各种方向和形状的目标。其中，训练集、验证集和测试集之间是严格独立的。

2. 数据集的预处理与标注

1) 数据集的预处理

本研究利用Roboflow平台对所有图片进行了尺寸规范化处理成416 × 416，确保输入数据的一致性，从而优化训练过程和模型表现。

2) 数据集标注

本文标注采取人工标注。标注工具是LabelImg。人工标注虽然耗时耗力，但能够保证标注的高质量。

3. 数据集的划分与分析

本文通过随机划分的方式，将资料集划分为训练、验证及测试三组，各组比例定为7:2:1。数据分配详情如下：训练集部分涵盖了8408幅图片资料，验证部分持有2402幅，而测试部分则包括1203幅。采用此种划分方案，其目的在于确保各个数据组别均能充分地代表整体样本并且维持分布上的均衡状态。

在表1中，各类别的样本数量表现不均衡，尤其是car和ship类样本比较多，而track、plane和tennis类样本比较少，符合小目标种类多样性特征，适合运用于多任务学习场景。验证集所含样本的规模，约占训练样本总量的百分之二十五。整体图像资料数量相当可观，特别是在car和ship这两个类别上，为模型学习过程奠定了坚实的数据基础。此数据集适于构建能够辨识不同类别的模型，进而有助于提升其泛化性能。验证与测试部分的样本规模合理，这将有助于精确衡量所建模型的实际效能。配合适宜的预处理技术及训练策略，可有效利用此图像资料在模型构建与成效评估环节的价值。

实验分析

1) 算法性能分析比较

各模型的实验评估趋势在图13中得以呈现。图中清晰列示了关键性能指标，例如召回率、mAP和精度。其中YOLOv11的mAP达到最高，但其召回率和精度并不是最高。从图中可以看出从YOLOv5至YOLOv11_ACMix模型的精确度不断提高，YOLOv11_ACMix的精度最高。

2) 可视化结果分析

图14展示了YOLOv11_ACMix模型在训练阶段的收敛表现曲线。观察此图可知，该模型的收敛进程展现出平稳且迅速的特性，约在100个训练周期之后趋于稳定。此种现象表明，YOLOv11_ACMix模型在应对动物识别类任务时，具备了良好的运行稳定性与卓越的数据拟合效果。

结束语

本文深入探讨了遥感图像小目标检测问题，并基于YOLOv11网络开发了一种先进的目标检测网络：YOLOv11_ACMix，提出了一种基于ACMix的自注意力机制的遥感图像小目标检测算法，这种算法在处理具有复杂背景的水平和有向标注数据集时，展现出了优异的检测性能。

基金项目：

2022年江西省教育厅科学技术研究项目(GJJ2204508)。

原文链接：https://doi.org/10.12677/csa.2025.157191

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git