一、整体总结


研究领域:

本文属于铁路障碍物目标检测与语义分割研究领域

解决问题:

传统铁路巡检依赖人工、单任务模型无法同时完成障碍物检测与轨道分割、实时性与精度难以兼顾的问题

使用技术:

基于 YOLOv8 的多任务统一框架,通过共享骨干网络、分支解耦设计,同步实现铁路障碍物目标检测与铁轨区域语义分割

实验结果:

在自建铁路场景数据集上验证,该框架相比单任务模型参数量更少、推理速度更快,障碍物检测 mAP 与轨道分割 mIoU 均达到优异水平,满足铁路巡检实时部署需求。

二、结构精读

1. 研究背景与问题

  • 铁路安全巡检是轨道交通安全核心环节,传统人工 / 半自动巡检效率低、漏检率高、恶劣环境适应性差
  • 现有视觉方法多为单任务独立模型,检测与分割分开运行,计算冗余、实时性不足
  • 铁路场景存在小目标障碍物、复杂光照、轨道弯曲遮挡等难点,通用模型精度不足

2. 相关工作

  • 目标检测:综述 YOLO 系列轻量化检测算法,突出 YOLOv8 精度与速度平衡优势

目标检测是识别轨道限界内障碍物的核心技术,主流方法分为两阶段与单阶段检测器。两阶段模型(如 Faster R‑CNN)精度较高,但参数量大、推理速度慢,不适合车载实时系统。以 YOLO 系列为代表的单阶段检测器兼顾速度与精度,被广泛用于轻量化视觉任务。YOLOv8 作为最新版本,采用新型 C2f 模块、简化 PAN 结构、解耦头设计,在小目标检测、多尺度特征融合上显著提升,更适配铁路小障碍物检测场景。现有研究多将 YOLO 用于单一检测任务,未与轨道分割任务协同优化。

  • 语义分割:介绍 Encoder-Decoder 结构分割模型,说明轨道分割对区域完整性要求

轨道语义分割旨在实现像素级轨道区域提取,为障碍物定位提供空间约束。主流分割模型基于Encoder‑Decoder 架构(如 U‑Net、DeepLab 系列),通过编码器下采样提取特征、解码器上采样恢复分辨率,实现密集预测。轨道分割对区域连续性、边缘完整性、抗干扰性要求更高,轨枕、道砟、轨道旁植被易造成误分割。独立分割模型需单独加载与推理,与检测模型并行会大幅增加计算开销。

  • 多任务学习:阐述共享特征、任务协同的优势,为本文框架提供理论依据

多任务学习(MTL)通过共享骨干网络、联合特征表达、统一梯度优化,让相关任务互相增益,减少参数量与计算量。在交通场景中,检测与分割存在强相关性:轨道区域可约束障碍物检测范围,障碍物位置可辅助分割关注前景。现有铁路视觉研究多为单任务独立设计,缺乏统一端到端多任务框架,未能充分利用检测与分割的互补性,导致资源浪费与性能瓶颈。

3. 方法:多任务 YOLOv8 框架设计

本文提出多任务 YOLOv8 统一框架,以 YOLOv8 为基础架构,在同一网络中共享骨干特征,并行输出障碍物检测结果轨道语义分割结果,实现单模型端到端完成双任务。

模型以 YOLOv8n 为基础、遵循 A-YOLOM 多任务设计原则,核心分为三大模块:中间的骨干网络(Backbone) 负责从输入图像中提取多尺度深度特征;右侧的检测头(Detection Head) 沿用 YOLOv8 原生结构,基于骨干输出的 P3、P4、P5 特征图完成铁路障碍物的目标检测;左侧的新增分割头(Segmentation Head) 则通过对骨干 P1-P4 多尺度特征的多次上采样、A-Concat 特征拼接,结合原始输入的跳跃连接、C2f 模块与 Upsample 操作,最终输出与输入同分辨率的轨道语义分割蒙版。整个架构中检测与分割任务共享骨干网络、并行推理,在单次前向传播中同时完成障碍物检测与轨道分割,大幅提升了推理效率,适配无人机等边缘平台的实时铁路巡检需求。

骨干网络:采用 YOLOv8 改进 C2f 模块,提取多尺度铁路场景特征
  • 引入更多分支跨层连接,增强梯度流动,提升小目标与复杂场景特征表达能力;
  • 保持轻量化结构,降低参数量与计算量;
  • 通过3 层下采样生成 8、16、32 倍下采样特征图,覆盖小、中、大尺度目标;
  • 采用PAN 结构进行多尺度特征融合,将深层语义特征与浅层纹理特征结合,强化轨道边缘与障碍物细节特征。
多任务分支:框架采用解耦头结构,避免检测与分割任务互相干扰,同时共享底层特征:
  1. 检测分支(Detection Head)

    • 沿用 YOLOv8 解耦检测头,分为分类支路与回归支路;
    • 分类支路:输出障碍物类别概率(行人、石块、落物、其他异物);
    • 回归支路:输出障碍物边界框坐标与置信度;
    • 适配铁路小目标,优化锚框尺度,提升远距离障碍物召回率。
  2. 分割分支(Segmentation Head)

    • 以骨干网络多尺度特征为输入,通过上采样与卷积融合恢复分辨率;
    • 输出二分类分割图:轨道前景、背景;
    • 保留轨道连续结构,抑制道砟、植被等干扰,保证轨道区域完整连通。

在深度卷积神经网络中,骨干网络(Backbone)会不断对图像进行下采样(downsampling),特征图越变越小,空间细节(边缘、纹理、细长结构)会逐层丢失。铁路轨道属于细长、低纹理、高细节依赖的目标,一旦细节丢失,分割就会出现:

  • 轨道断裂
  • 边缘模糊
  • 误分割
  • 连续性差

跳跃连接的作用:直接将原始输入图像的高分辨率、全细节信息,不经下采样、不经过深层网络压缩,以旁路方式直接送入分割头

它让分割头同时融合两类信息:

  1. 深层语义特征:知道 “哪里是轨道”
  2. 原始图像细节:知道 “轨道长什么样、边缘在哪”

从而恢复轨道的空间结构、连续性与边缘精度

损失函数:联合检测损失(CIoU)+ 分割损失(DiceLoss),平衡两任务优化
  • 检测损失 Ldet​:以CIoU Loss为主损失,结合分类损失;CIoU 同时考虑重叠区域、中心点距离、宽高比,提升边界框回归精度与定位稳定性。
  • 分割损失 Lseg​:采用DiceLoss,缓解轨道与背景像素不均衡问题,提升小区域与边缘分割效果。
轻量化优化:为满足边缘设备(车载 GPU、嵌入式平台)部署,进行轻量化改进:
  • 通道剪枝:移除冗余通道与神经元,在精度损失可接受范围内大幅降低计算量;
  • 模型量化:支持 FP16/INT8 量化,提升推理速度;
  • 特征复用:最大化共享骨干特征,减少重复计算,使模型在实时推理(≥30 FPS) 前提下保持高精度。

创新点总结如下:

  1. 提出了一种基于 YOLOv8n 的铁路场景多任务感知框架 RA-YOLOM,基于 YOLOv8n 的 “检测 + 分割” 双分支解耦设计,这是最基础也是最核心的创新,解决了传统方法 “两个模型、重复计算” 的痛点。保留 YOLOv8n 成熟的 Backbone和 Detection Head,确保铁路障碍物(小目标、复杂背景)检测的鲁棒性与速度。新增独立分割分支:设计了针对轨道分割的专用 Segmentation Head。该分支不占用检测头的计算资源,实现了任务级解耦,避免了检测与分割任务之间的特征干扰。特征共享机制:虽然分支独立,但所有分支共享底层 Backbone 提取的特征图(P1-P5),实现了 “一模型双任务”,在保证精度的同时大幅降低了模型总参数量和推理延迟。
  2. 设计了高效的多尺度特征融合策略:在分割分支中引入 A-Concat 自适应拼接操作与输入级跳跃连接,精准捕捉铁路轨道细长且连续的几何特征,显著提升了复杂环境下的轨道分割精度。A-Concat(自适应拼接):不同于简单的加法融合(Add),采用 A-Concat 进行特征拼接。这种操作能更好地保留深层语义信息与浅层纹理信息的完整性,有助于识别轨道边缘即使在光照变化或道砟遮挡下的细微特征。输入级跳跃连接:传统的 U-Net 结构通常只在编码器和解码器之间跳跃,而本研究直接将原始输入图像(Input)引入分割头的特征融合流程。这一设计极大地补充了分割任务所需的高频细节,有效解决了深层特征下采样导致的轨道轮廓模糊或断裂问题,显著提升了轨道分割的边缘精度。
  3. 构建了轻量化的多任务分支结构:利用 C2f 模块增强分割分支特征表达能力,在分割头的上采样和融合过程中,密集使用 C2f 模块。C2f 模块通过跨阶段部分连接,增强了梯度流动性,能在保持模型轻量化(适合无人机等边缘设备)的前提下,提取更具判别性的深层特征。这解决了分割网络通常因堆叠卷积导致参数量过大、推理缓慢的问题,实现了 “高分割精度” 与 “低资源消耗” 的平衡。同时共享轻量化骨干网络,在保证双任务性能的同时,大幅降低了模型复杂度,满足无人机等边缘部署平台的实时性要求。

4. 实验与结果

数据集:自建包含障碍物标注 + 轨道像素标注的铁路场景数据集
评估指标:

针对目标检测语义分割双任务,分别采用对应核心评估指标:

(1)目标检测任务指标
  • 精确率(Precision, P):P=TP+FP/TP​,衡量模型预测为正样本的样本中,真实正样本的比例,反映模型的 “误检率”。
  • 召回率(Recall, R):R=TP+FN/TP​,衡量真实正样本中被模型正确预测的比例,反映模型的 “漏检率”。
  • 平均精度均值(mAP50):IoU 阈值为 0.5 时的平均精度均值,综合衡量模型的检测精度,是目标检测任务的核心指标。
(2)语义分割任务指标
  • 交并比(IoU,即 mIoU):IoU=TP+FP+FN/TP​,衡量预测分割区域与真实标注区域的重叠程度,反映轨道区域的分割准确性。
  • 像素准确率(Subacc,即 Sub-pixel Accuracy/Overall Accuracy):Subacc=TP+TN+FP+FN/TP+TN​,衡量所有像素中被正确分类的比例,反映模型的整体分割精度。
  • 参数量(Parameters):模型的总参数量,衡量模型的轻量化程度,反映边缘部署的可行性。
  • 训练损失曲线(图 2):box_loss衡量边界框回归精度,cls_loss衡量障碍物分类准确性,dfl_loss优化边界框的分布预测,三者同步下降说明模型在训练过程中,障碍物的定位、分类能力同步提升。
  • 验证损失曲线(图 3):验证损失最终稳定值远低于训练损失初始值,且全程无大幅波动,证明模型在 unseen 数据上的鲁棒性,能够有效迁移到真实铁路巡检场景。
对比实验:优于单任务 YOLOv8 检测 + U-Net 分割组合,精度提升且速度更快

该表格为 RA-YOLOM 与基准模型的双任务性能对比表,从参数量、检测任务指标(P、R、mAP50)、分割任务指标(IoU、Subacc)多维度,全面验证模型的优越性。

  • 多任务架构的有效性:RA-YOLOM 与 A-YOLOM 仅用 3.32M 参数量(仅比单任务模型多 0.12M),就同时实现了检测 + 分割双任务,避免了部署两个单任务模型的计算冗余,推理效率提升近 1 倍,完美适配无人机等边缘平台。
  • 检测任务性能:RA-YOLOM 的 mAP50(0.733)与 A-YOLOM(0.732)基本持平,精确率(0.675)优于 A-YOLOM(0.667),仅略低于纯检测模型 YOLOv8n (detect)(0.776),说明在新增分割任务后,模型的检测能力几乎无损失,保持了障碍物定位的鲁棒性。
  • 分割任务性能(核心创新验证)
    • RA-YOLOM 的 IoU(0.699)较纯分割模型 YOLOv8n (segment)(0.624)提升12.0%,较基准 A-YOLOM(0.671)提升4.2%
    • 像素准确率 Subacc(0.927)较纯分割模型(0.808)提升14.7%,较 A-YOLOM(0.846)提升9.6%,大幅领先所有基准模型,直接验证了本研究分割头多尺度融合、跳跃连接、C2f 增强等改进的有效性,完美适配铁路轨道细长、连续的几何特征,显著提升了轨道分割精度。
  • 轻量化与实时性:RA-YOLOM 总参数量仅 3.32M,属于超轻量化模型,在保证双任务高精度的同时,推理速度可达 30+ FPS,满足无人机、车载等边缘平台的实时巡检需求。

消融实验:验证共享骨干、损失函数、模块改进的有效性

实验结果表明:① 单纯调整损失权重会严重破坏分割精度,无法提升模型性能;② 单独加入跳跃连接仅能小幅提升检测精度,却会大幅降低推理速度,分割精度提升有限;③ 本研究提出的 RA-YOLOM 完整模型,在检测性能与基准基本持平的前提下,实现了分割精度的大幅提升,IoU 与 Subacc 分别较基准提升 4.2% 与 9.6%,同时仅牺牲少量推理速度,验证了各改进模块的协同有效性,实现了精度与实时性的最优平衡。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐