基于多任务 YOLOv8 的铁路障碍物检测与轨道分割框架精读
本文属于研究领域。
一、整体总结
研究领域:
本文属于铁路障碍物目标检测与语义分割研究领域
解决问题:
传统铁路巡检依赖人工、单任务模型无法同时完成障碍物检测与轨道分割、实时性与精度难以兼顾的问题
使用技术:
基于 YOLOv8 的多任务统一框架,通过共享骨干网络、分支解耦设计,同步实现铁路障碍物目标检测与铁轨区域语义分割
实验结果:
在自建铁路场景数据集上验证,该框架相比单任务模型参数量更少、推理速度更快,障碍物检测 mAP 与轨道分割 mIoU 均达到优异水平,满足铁路巡检实时部署需求。
二、结构精读
1. 研究背景与问题
- 铁路安全巡检是轨道交通安全核心环节,传统人工 / 半自动巡检效率低、漏检率高、恶劣环境适应性差
- 现有视觉方法多为单任务独立模型,检测与分割分开运行,计算冗余、实时性不足
- 铁路场景存在小目标障碍物、复杂光照、轨道弯曲遮挡等难点,通用模型精度不足
2. 相关工作
- 目标检测:综述 YOLO 系列轻量化检测算法,突出 YOLOv8 精度与速度平衡优势
目标检测是识别轨道限界内障碍物的核心技术,主流方法分为两阶段与单阶段检测器。两阶段模型(如 Faster R‑CNN)精度较高,但参数量大、推理速度慢,不适合车载实时系统。以 YOLO 系列为代表的单阶段检测器兼顾速度与精度,被广泛用于轻量化视觉任务。YOLOv8 作为最新版本,采用新型 C2f 模块、简化 PAN 结构、解耦头设计,在小目标检测、多尺度特征融合上显著提升,更适配铁路小障碍物检测场景。现有研究多将 YOLO 用于单一检测任务,未与轨道分割任务协同优化。
- 语义分割:介绍 Encoder-Decoder 结构分割模型,说明轨道分割对区域完整性要求
轨道语义分割旨在实现像素级轨道区域提取,为障碍物定位提供空间约束。主流分割模型基于Encoder‑Decoder 架构(如 U‑Net、DeepLab 系列),通过编码器下采样提取特征、解码器上采样恢复分辨率,实现密集预测。轨道分割对区域连续性、边缘完整性、抗干扰性要求更高,轨枕、道砟、轨道旁植被易造成误分割。独立分割模型需单独加载与推理,与检测模型并行会大幅增加计算开销。
- 多任务学习:阐述共享特征、任务协同的优势,为本文框架提供理论依据
多任务学习(MTL)通过共享骨干网络、联合特征表达、统一梯度优化,让相关任务互相增益,减少参数量与计算量。在交通场景中,检测与分割存在强相关性:轨道区域可约束障碍物检测范围,障碍物位置可辅助分割关注前景。现有铁路视觉研究多为单任务独立设计,缺乏统一端到端多任务框架,未能充分利用检测与分割的互补性,导致资源浪费与性能瓶颈。
3. 方法:多任务 YOLOv8 框架设计
本文提出多任务 YOLOv8 统一框架,以 YOLOv8 为基础架构,在同一网络中共享骨干特征,并行输出障碍物检测结果与轨道语义分割结果,实现单模型端到端完成双任务。

模型以 YOLOv8n 为基础、遵循 A-YOLOM 多任务设计原则,核心分为三大模块:中间的骨干网络(Backbone) 负责从输入图像中提取多尺度深度特征;右侧的检测头(Detection Head) 沿用 YOLOv8 原生结构,基于骨干输出的 P3、P4、P5 特征图完成铁路障碍物的目标检测;左侧的新增分割头(Segmentation Head) 则通过对骨干 P1-P4 多尺度特征的多次上采样、A-Concat 特征拼接,结合原始输入的跳跃连接、C2f 模块与 Upsample 操作,最终输出与输入同分辨率的轨道语义分割蒙版。整个架构中检测与分割任务共享骨干网络、并行推理,在单次前向传播中同时完成障碍物检测与轨道分割,大幅提升了推理效率,适配无人机等边缘平台的实时铁路巡检需求。
骨干网络:采用 YOLOv8 改进 C2f 模块,提取多尺度铁路场景特征
- 引入更多分支跨层连接,增强梯度流动,提升小目标与复杂场景特征表达能力;
- 保持轻量化结构,降低参数量与计算量;
- 通过3 层下采样生成 8、16、32 倍下采样特征图,覆盖小、中、大尺度目标;
- 采用PAN 结构进行多尺度特征融合,将深层语义特征与浅层纹理特征结合,强化轨道边缘与障碍物细节特征。
多任务分支:框架采用解耦头结构,避免检测与分割任务互相干扰,同时共享底层特征:
-
检测分支(Detection Head)
- 沿用 YOLOv8 解耦检测头,分为分类支路与回归支路;
- 分类支路:输出障碍物类别概率(行人、石块、落物、其他异物);
- 回归支路:输出障碍物边界框坐标与置信度;
- 适配铁路小目标,优化锚框尺度,提升远距离障碍物召回率。
-
分割分支(Segmentation Head)
- 以骨干网络多尺度特征为输入,通过上采样与卷积融合恢复分辨率;
- 输出二分类分割图:轨道前景、背景;
- 保留轨道连续结构,抑制道砟、植被等干扰,保证轨道区域完整连通。
在深度卷积神经网络中,骨干网络(Backbone)会不断对图像进行下采样(downsampling),特征图越变越小,空间细节(边缘、纹理、细长结构)会逐层丢失。铁路轨道属于细长、低纹理、高细节依赖的目标,一旦细节丢失,分割就会出现:
- 轨道断裂
- 边缘模糊
- 误分割
- 连续性差
跳跃连接的作用:直接将原始输入图像的高分辨率、全细节信息,不经下采样、不经过深层网络压缩,以旁路方式直接送入分割头。
它让分割头同时融合两类信息:
- 深层语义特征:知道 “哪里是轨道”
- 原始图像细节:知道 “轨道长什么样、边缘在哪”
从而恢复轨道的空间结构、连续性与边缘精度。
损失函数:联合检测损失(CIoU)+ 分割损失(DiceLoss),平衡两任务优化
- 检测损失 Ldet:以CIoU Loss为主损失,结合分类损失;CIoU 同时考虑重叠区域、中心点距离、宽高比,提升边界框回归精度与定位稳定性。
- 分割损失 Lseg:采用DiceLoss,缓解轨道与背景像素不均衡问题,提升小区域与边缘分割效果。
轻量化优化:为满足边缘设备(车载 GPU、嵌入式平台)部署,进行轻量化改进:
- 通道剪枝:移除冗余通道与神经元,在精度损失可接受范围内大幅降低计算量;
- 模型量化:支持 FP16/INT8 量化,提升推理速度;
- 特征复用:最大化共享骨干特征,减少重复计算,使模型在实时推理(≥30 FPS) 前提下保持高精度。
创新点总结如下:
- 提出了一种基于 YOLOv8n 的铁路场景多任务感知框架 RA-YOLOM,基于 YOLOv8n 的 “检测 + 分割” 双分支解耦设计,这是最基础也是最核心的创新,解决了传统方法 “两个模型、重复计算” 的痛点。保留 YOLOv8n 成熟的 Backbone和 Detection Head,确保铁路障碍物(小目标、复杂背景)检测的鲁棒性与速度。新增独立分割分支:设计了针对轨道分割的专用 Segmentation Head。该分支不占用检测头的计算资源,实现了任务级解耦,避免了检测与分割任务之间的特征干扰。特征共享机制:虽然分支独立,但所有分支共享底层 Backbone 提取的特征图(P1-P5),实现了 “一模型双任务”,在保证精度的同时大幅降低了模型总参数量和推理延迟。
- 设计了高效的多尺度特征融合策略:在分割分支中引入 A-Concat 自适应拼接操作与输入级跳跃连接,精准捕捉铁路轨道细长且连续的几何特征,显著提升了复杂环境下的轨道分割精度。A-Concat(自适应拼接):不同于简单的加法融合(Add),采用 A-Concat 进行特征拼接。这种操作能更好地保留深层语义信息与浅层纹理信息的完整性,有助于识别轨道边缘即使在光照变化或道砟遮挡下的细微特征。输入级跳跃连接:传统的 U-Net 结构通常只在编码器和解码器之间跳跃,而本研究直接将原始输入图像(Input)引入分割头的特征融合流程。这一设计极大地补充了分割任务所需的高频细节,有效解决了深层特征下采样导致的轨道轮廓模糊或断裂问题,显著提升了轨道分割的边缘精度。
- 构建了轻量化的多任务分支结构:利用 C2f 模块增强分割分支特征表达能力,在分割头的上采样和融合过程中,密集使用 C2f 模块。C2f 模块通过跨阶段部分连接,增强了梯度流动性,能在保持模型轻量化(适合无人机等边缘设备)的前提下,提取更具判别性的深层特征。这解决了分割网络通常因堆叠卷积导致参数量过大、推理缓慢的问题,实现了 “高分割精度” 与 “低资源消耗” 的平衡。同时共享轻量化骨干网络,在保证双任务性能的同时,大幅降低了模型复杂度,满足无人机等边缘部署平台的实时性要求。
4. 实验与结果
数据集:自建包含障碍物标注 + 轨道像素标注的铁路场景数据集
评估指标:
针对目标检测与语义分割双任务,分别采用对应核心评估指标:
(1)目标检测任务指标
- 精确率(Precision, P):P=TP+FP/TP,衡量模型预测为正样本的样本中,真实正样本的比例,反映模型的 “误检率”。
- 召回率(Recall, R):R=TP+FN/TP,衡量真实正样本中被模型正确预测的比例,反映模型的 “漏检率”。
- 平均精度均值(mAP50):IoU 阈值为 0.5 时的平均精度均值,综合衡量模型的检测精度,是目标检测任务的核心指标。
(2)语义分割任务指标
- 交并比(IoU,即 mIoU):IoU=TP+FP+FN/TP,衡量预测分割区域与真实标注区域的重叠程度,反映轨道区域的分割准确性。
- 像素准确率(Subacc,即 Sub-pixel Accuracy/Overall Accuracy):Subacc=TP+TN+FP+FN/TP+TN,衡量所有像素中被正确分类的比例,反映模型的整体分割精度。
- 参数量(Parameters):模型的总参数量,衡量模型的轻量化程度,反映边缘部署的可行性。

- 训练损失曲线(图 2):
box_loss衡量边界框回归精度,cls_loss衡量障碍物分类准确性,dfl_loss优化边界框的分布预测,三者同步下降说明模型在训练过程中,障碍物的定位、分类能力同步提升。 - 验证损失曲线(图 3):验证损失最终稳定值远低于训练损失初始值,且全程无大幅波动,证明模型在 unseen 数据上的鲁棒性,能够有效迁移到真实铁路巡检场景。
对比实验:优于单任务 YOLOv8 检测 + U-Net 分割组合,精度提升且速度更快

该表格为 RA-YOLOM 与基准模型的双任务性能对比表,从参数量、检测任务指标(P、R、mAP50)、分割任务指标(IoU、Subacc)多维度,全面验证模型的优越性。
- 多任务架构的有效性:RA-YOLOM 与 A-YOLOM 仅用 3.32M 参数量(仅比单任务模型多 0.12M),就同时实现了检测 + 分割双任务,避免了部署两个单任务模型的计算冗余,推理效率提升近 1 倍,完美适配无人机等边缘平台。
- 检测任务性能:RA-YOLOM 的 mAP50(0.733)与 A-YOLOM(0.732)基本持平,精确率(0.675)优于 A-YOLOM(0.667),仅略低于纯检测模型 YOLOv8n (detect)(0.776),说明在新增分割任务后,模型的检测能力几乎无损失,保持了障碍物定位的鲁棒性。
- 分割任务性能(核心创新验证):
- RA-YOLOM 的 IoU(0.699)较纯分割模型 YOLOv8n (segment)(0.624)提升12.0%,较基准 A-YOLOM(0.671)提升4.2%;
- 像素准确率 Subacc(0.927)较纯分割模型(0.808)提升14.7%,较 A-YOLOM(0.846)提升9.6%,大幅领先所有基准模型,直接验证了本研究分割头多尺度融合、跳跃连接、C2f 增强等改进的有效性,完美适配铁路轨道细长、连续的几何特征,显著提升了轨道分割精度。
- 轻量化与实时性:RA-YOLOM 总参数量仅 3.32M,属于超轻量化模型,在保证双任务高精度的同时,推理速度可达 30+ FPS,满足无人机、车载等边缘平台的实时巡检需求。

消融实验:验证共享骨干、损失函数、模块改进的有效性

实验结果表明:① 单纯调整损失权重会严重破坏分割精度,无法提升模型性能;② 单独加入跳跃连接仅能小幅提升检测精度,却会大幅降低推理速度,分割精度提升有限;③ 本研究提出的 RA-YOLOM 完整模型,在检测性能与基准基本持平的前提下,实现了分割精度的大幅提升,IoU 与 Subacc 分别较基准提升 4.2% 与 9.6%,同时仅牺牲少量推理速度,验证了各改进模块的协同有效性,实现了精度与实时性的最优平衡。
更多推荐

所有评论(0)