基于多任务 YOLOv8 的铁路障碍物检测与轨道分割框架精读

本文属于研究领域。

菲菲111

377人浏览 · 2026-04-10 13:17:36

菲菲111 · 2026-04-10 13:17:36 发布

一、整体总结

研究领域：

本文属于铁路障碍物目标检测与语义分割研究领域

解决问题：

传统铁路巡检依赖人工、单任务模型无法同时完成障碍物检测与轨道分割、实时性与精度难以兼顾的问题

使用技术：

基于 YOLOv8 的多任务统一框架，通过共享骨干网络、分支解耦设计，同步实现铁路障碍物目标检测与铁轨区域语义分割

实验结果：

在自建铁路场景数据集上验证，该框架相比单任务模型参数量更少、推理速度更快，障碍物检测 mAP 与轨道分割 mIoU 均达到优异水平，满足铁路巡检实时部署需求。

二、结构精读

1. 研究背景与问题

铁路安全巡检是轨道交通安全核心环节，传统人工 / 半自动巡检效率低、漏检率高、恶劣环境适应性差
现有视觉方法多为单任务独立模型，检测与分割分开运行，计算冗余、实时性不足
铁路场景存在小目标障碍物、复杂光照、轨道弯曲遮挡等难点，通用模型精度不足

2. 相关工作

目标检测：综述 YOLO 系列轻量化检测算法，突出 YOLOv8 精度与速度平衡优势

目标检测是识别轨道限界内障碍物的核心技术，主流方法分为两阶段与单阶段检测器。两阶段模型（如 Faster R‑CNN）精度较高，但参数量大、推理速度慢，不适合车载实时系统。以 YOLO 系列为代表的单阶段检测器兼顾速度与精度，被广泛用于轻量化视觉任务。YOLOv8 作为最新版本，采用新型 C2f 模块、简化 PAN 结构、解耦头设计，在小目标检测、多尺度特征融合上显著提升，更适配铁路小障碍物检测场景。现有研究多将 YOLO 用于单一检测任务，未与轨道分割任务协同优化。

语义分割：介绍 Encoder-Decoder 结构分割模型，说明轨道分割对区域完整性要求

轨道语义分割旨在实现像素级轨道区域提取，为障碍物定位提供空间约束。主流分割模型基于Encoder‑Decoder 架构（如 U‑Net、DeepLab 系列），通过编码器下采样提取特征、解码器上采样恢复分辨率，实现密集预测。轨道分割对区域连续性、边缘完整性、抗干扰性要求更高，轨枕、道砟、轨道旁植被易造成误分割。独立分割模型需单独加载与推理，与检测模型并行会大幅增加计算开销。

多任务学习：阐述共享特征、任务协同的优势，为本文框架提供理论依据

多任务学习（MTL）通过共享骨干网络、联合特征表达、统一梯度优化，让相关任务互相增益，减少参数量与计算量。在交通场景中，检测与分割存在强相关性：轨道区域可约束障碍物检测范围，障碍物位置可辅助分割关注前景。现有铁路视觉研究多为单任务独立设计，缺乏统一端到端多任务框架，未能充分利用检测与分割的互补性，导致资源浪费与性能瓶颈。

3. 方法：多任务 YOLOv8 框架设计

本文提出多任务 YOLOv8 统一框架，以 YOLOv8 为基础架构，在同一网络中共享骨干特征，并行输出障碍物检测结果与轨道语义分割结果，实现单模型端到端完成双任务。

模型以 YOLOv8n 为基础、遵循 A-YOLOM 多任务设计原则，核心分为三大模块：中间的骨干网络（Backbone） 负责从输入图像中提取多尺度深度特征；右侧的检测头（Detection Head） 沿用 YOLOv8 原生结构，基于骨干输出的 P3、P4、P5 特征图完成铁路障碍物的目标检测；左侧的新增分割头（Segmentation Head） 则通过对骨干 P1-P4 多尺度特征的多次上采样、A-Concat 特征拼接，结合原始输入的跳跃连接、C2f 模块与 Upsample 操作，最终输出与输入同分辨率的轨道语义分割蒙版。整个架构中检测与分割任务共享骨干网络、并行推理，在单次前向传播中同时完成障碍物检测与轨道分割，大幅提升了推理效率，适配无人机等边缘平台的实时铁路巡检需求。

骨干网络：采用 YOLOv8 改进 C2f 模块，提取多尺度铁路场景特征

引入更多分支跨层连接，增强梯度流动，提升小目标与复杂场景特征表达能力；
保持轻量化结构，降低参数量与计算量；
通过3 层下采样生成 8、16、32 倍下采样特征图，覆盖小、中、大尺度目标；
采用PAN 结构进行多尺度特征融合，将深层语义特征与浅层纹理特征结合，强化轨道边缘与障碍物细节特征。

多任务分支：框架采用解耦头结构，避免检测与分割任务互相干扰，同时共享底层特征：

检测分支（Detection Head）
- 沿用 YOLOv8 解耦检测头，分为分类支路与回归支路；
- 分类支路：输出障碍物类别概率（行人、石块、落物、其他异物）；
- 回归支路：输出障碍物边界框坐标与置信度；
- 适配铁路小目标，优化锚框尺度，提升远距离障碍物召回率。
分割分支（Segmentation Head）
- 以骨干网络多尺度特征为输入，通过上采样与卷积融合恢复分辨率；
- 输出二分类分割图：轨道前景、背景；
- 保留轨道连续结构，抑制道砟、植被等干扰，保证轨道区域完整连通。

在深度卷积神经网络中，骨干网络（Backbone）会不断对图像进行下采样（downsampling），特征图越变越小，空间细节（边缘、纹理、细长结构）会逐层丢失。铁路轨道属于细长、低纹理、高细节依赖的目标，一旦细节丢失，分割就会出现：

轨道断裂
边缘模糊
误分割
连续性差

跳跃连接的作用：直接将原始输入图像的高分辨率、全细节信息，不经下采样、不经过深层网络压缩，以旁路方式直接送入分割头。

它让分割头同时融合两类信息：

深层语义特征：知道 “哪里是轨道”
原始图像细节：知道 “轨道长什么样、边缘在哪”

从而恢复轨道的空间结构、连续性与边缘精度。

损失函数：联合检测损失（CIoU）+ 分割损失（DiceLoss），平衡两任务优化

检测损失 Ldet：以CIoU Loss为主损失，结合分类损失；CIoU 同时考虑重叠区域、中心点距离、宽高比，提升边界框回归精度与定位稳定性。
分割损失 Lseg：采用DiceLoss，缓解轨道与背景像素不均衡问题，提升小区域与边缘分割效果。

轻量化优化：为满足边缘设备（车载 GPU、嵌入式平台）部署，进行轻量化改进：

通道剪枝：移除冗余通道与神经元，在精度损失可接受范围内大幅降低计算量；
模型量化：支持 FP16/INT8 量化，提升推理速度；
特征复用：最大化共享骨干特征，减少重复计算，使模型在实时推理（≥30 FPS） 前提下保持高精度。

创新点总结如下：

提出了一种基于 YOLOv8n 的铁路场景多任务感知框架 RA-YOLOM，基于 YOLOv8n 的 “检测 + 分割” 双分支解耦设计，这是最基础也是最核心的创新，解决了传统方法 “两个模型、重复计算” 的痛点。保留 YOLOv8n 成熟的 Backbone和 Detection Head，确保铁路障碍物（小目标、复杂背景）检测的鲁棒性与速度。新增独立分割分支：设计了针对轨道分割的专用 Segmentation Head。该分支不占用检测头的计算资源，实现了任务级解耦，避免了检测与分割任务之间的特征干扰。特征共享机制：虽然分支独立，但所有分支共享底层 Backbone 提取的特征图（P1-P5），实现了 “一模型双任务”，在保证精度的同时大幅降低了模型总参数量和推理延迟。
设计了高效的多尺度特征融合策略：在分割分支中引入 A-Concat 自适应拼接操作与输入级跳跃连接，精准捕捉铁路轨道细长且连续的几何特征，显著提升了复杂环境下的轨道分割精度。A-Concat（自适应拼接）：不同于简单的加法融合（Add），采用 A-Concat 进行特征拼接。这种操作能更好地保留深层语义信息与浅层纹理信息的完整性，有助于识别轨道边缘即使在光照变化或道砟遮挡下的细微特征。输入级跳跃连接：传统的 U-Net 结构通常只在编码器和解码器之间跳跃，而本研究直接将原始输入图像（Input）引入分割头的特征融合流程。这一设计极大地补充了分割任务所需的高频细节，有效解决了深层特征下采样导致的轨道轮廓模糊或断裂问题，显著提升了轨道分割的边缘精度。
构建了轻量化的多任务分支结构：利用 C2f 模块增强分割分支特征表达能力，在分割头的上采样和融合过程中，密集使用 C2f 模块。C2f 模块通过跨阶段部分连接，增强了梯度流动性，能在保持模型轻量化（适合无人机等边缘设备）的前提下，提取更具判别性的深层特征。这解决了分割网络通常因堆叠卷积导致参数量过大、推理缓慢的问题，实现了 “高分割精度” 与 “低资源消耗” 的平衡。同时共享轻量化骨干网络，在保证双任务性能的同时，大幅降低了模型复杂度，满足无人机等边缘部署平台的实时性要求。

4. 实验与结果

数据集：自建包含障碍物标注 + 轨道像素标注的铁路场景数据集

评估指标：

针对目标检测与语义分割双任务，分别采用对应核心评估指标：

（1）目标检测任务指标

精确率（Precision, P）：P=TP+FP/TP，衡量模型预测为正样本的样本中，真实正样本的比例，反映模型的 “误检率”。
召回率（Recall, R）：R=TP+FN/TP，衡量真实正样本中被模型正确预测的比例，反映模型的 “漏检率”。
平均精度均值（mAP50）：IoU 阈值为 0.5 时的平均精度均值，综合衡量模型的检测精度，是目标检测任务的核心指标。

（2）语义分割任务指标

交并比（IoU，即 mIoU）：IoU=TP+FP+FN/TP，衡量预测分割区域与真实标注区域的重叠程度，反映轨道区域的分割准确性。
像素准确率（Subacc，即 Sub-pixel Accuracy/Overall Accuracy）：Subacc=TP+TN+FP+FN/TP+TN，衡量所有像素中被正确分类的比例，反映模型的整体分割精度。
参数量（Parameters）：模型的总参数量，衡量模型的轻量化程度，反映边缘部署的可行性。

训练损失曲线（图 2）：box_loss衡量边界框回归精度，cls_loss衡量障碍物分类准确性，dfl_loss优化边界框的分布预测，三者同步下降说明模型在训练过程中，障碍物的定位、分类能力同步提升。
验证损失曲线（图 3）：验证损失最终稳定值远低于训练损失初始值，且全程无大幅波动，证明模型在 unseen 数据上的鲁棒性，能够有效迁移到真实铁路巡检场景。

对比实验：优于单任务 YOLOv8 检测 + U-Net 分割组合，精度提升且速度更快

该表格为 RA-YOLOM 与基准模型的双任务性能对比表，从参数量、检测任务指标（P、R、mAP50）、分割任务指标（IoU、Subacc）多维度，全面验证模型的优越性。

多任务架构的有效性：RA-YOLOM 与 A-YOLOM 仅用 3.32M 参数量（仅比单任务模型多 0.12M），就同时实现了检测 + 分割双任务，避免了部署两个单任务模型的计算冗余，推理效率提升近 1 倍，完美适配无人机等边缘平台。
检测任务性能：RA-YOLOM 的 mAP50（0.733）与 A-YOLOM（0.732）基本持平，精确率（0.675）优于 A-YOLOM（0.667），仅略低于纯检测模型 YOLOv8n (detect)（0.776），说明在新增分割任务后，模型的检测能力几乎无损失，保持了障碍物定位的鲁棒性。
分割任务性能（核心创新验证）：
- RA-YOLOM 的 IoU（0.699）较纯分割模型 YOLOv8n (segment)（0.624）提升12.0%，较基准 A-YOLOM（0.671）提升4.2%；
- 像素准确率 Subacc（0.927）较纯分割模型（0.808）提升14.7%，较 A-YOLOM（0.846）提升9.6%，大幅领先所有基准模型，直接验证了本研究分割头多尺度融合、跳跃连接、C2f 增强等改进的有效性，完美适配铁路轨道细长、连续的几何特征，显著提升了轨道分割精度。
轻量化与实时性：RA-YOLOM 总参数量仅 3.32M，属于超轻量化模型，在保证双任务高精度的同时，推理速度可达 30+ FPS，满足无人机、车载等边缘平台的实时巡检需求。

消融实验：验证共享骨干、损失函数、模块改进的有效性

实验结果表明：① 单纯调整损失权重会严重破坏分割精度，无法提升模型性能；② 单独加入跳跃连接仅能小幅提升检测精度，却会大幅降低推理速度，分割精度提升有限；③ 本研究提出的 RA-YOLOM 完整模型，在检测性能与基准基本持平的前提下，实现了分割精度的大幅提升，IoU 与 Subacc 分别较基准提升 4.2% 与 9.6%，同时仅牺牲少量推理速度，验证了各改进模块的协同有效性，实现了精度与实时性的最优平衡。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git