Ultralytics YOLO 演进:YOLO26、YOLO11、YOLOv8 和 YOLOv5 目标检测器在计算机视觉与模式识别中的概述

作者: Ranjan Sapkota, Manoj Karkee
单位: 康奈尔大学生物与环境工程系,纽约州伊萨卡市,14850,美国
日期: 2025年10月16日


摘要

本文全面概述了 Ultralytics YOLO 系列目标检测器,重点介绍架构演进、基准测试、部署视角和未来挑战。本综述从最新发布的 YOLO26(或 YOLOv26)开始,该版本引入了多项关键创新:移除分布焦点损失(DFL)、原生无NMS推理、渐进损失平衡(ProgLoss)、小目标感知标签分配(STAL)以及用于稳定训练的 MuSGD 优化器。随后追溯演进历程:YOLO11 采用混合任务分配和效率导向模块;YOLOv8 以解耦检测头和无锚框预测实现进步;YOLOv5 则奠定了模块化 PyTorch 基础,使现代 YOLO 开发成为可能。在 MS COCO 数据集上的基准测试提供了 YOLOv5、YOLOv8、YOLO11 和 YOLO26 的详细定量比较,以及与 YOLOv12、YOLOv13、RT-DETR 和 DEIM 的交叉对比。分析了包括精确率、召回率、F1分数、平均精度均值和推理速度在内的指标,以突出精度与效率之间的权衡。进一步讨论了部署和应用视角,涵盖导出格式、量化策略以及在机器人、农业、监控和制造业中的实际应用。最后,论文识别了挑战和未来方向,包括密集场景限制、混合 CNN-Transformer 集成、开放词汇检测和边缘感知训练。

关键词: YOLO · Ultralytics · YOLOv5 · YOLOv8 · YOLO11 · YOLO26 · You Only Look Once


1 引言

目标检测已成为计算机视觉中最关键的任务之一,使机器不仅能够识别,还能在复杂图像或视频流中定位多个目标[1,2]。其重要性涵盖广泛的领域,包括自动驾驶、机器人、监控、医学成像、农业和智能制造,在这些领域中,可靠的实时性能直接关系到安全性、效率和自动化收益[3,4]。在过去十年提出的众多算法中,YOLO(You Only Look Once,你只看一次)系列已成为最具影响力和最广泛采用的实时目标检测模型系列,在高精度和前所未有的推理速度之间取得了平衡[5]。自2016年首次发布以来,YOLO 经历了多次架构修订,每次迭代都解决了前代的特定限制,同时融入了神经网络设计、训练策略、损失函数和部署效率方面的进展[5]。YOLO 的累积演进如图1所示,该图追溯了从早期 Ultralytics 版本(如 YOLOv5)到最新 YOLO26(2025年)的转变,后者是第一个原生统一五项关键任务的版本:目标检测、实例分割、分类、姿态/关键点检测和定向边界框检测。该时间线展示了 YOLO 如何稳步扩展其检测之外的能力,成为一个适用于研究和边缘部署的多功能多任务视觉框架。

2025年9月发布的 YOLO26 代表了这一演进轨迹的最新里程碑。YOLO26 围绕简洁、高效和创新的原则设计,引入了架构简化,消除了非极大值抑制(NMS)和分布焦点损失(DFL)等瓶颈,采用新颖的 MuSGD 优化器实现稳定收敛,并纳入了渐进损失平衡(ProgLoss)和小目标感知标签分配(STAL)等训练改进[6]。这些创新共同确立了 YOLO26 作为针对低功耗和嵌入式设备优化的尖端模型,在不牺牲准确性的情况下显著提高了实际部署能力。

为了将 YOLO26 置于更广泛的生态系统中,我们首先回顾 Redmon 等人(2016年)开创的范式转变,他们将检测重新定义为单个回归问题,放弃区域提议,转而支持边界框和类别概率的直接一次性预测[7]。与将提议生成和分类解耦的两阶段流程(如 R-CNN 和 Faster R-CNN)[8,9]相比,YOLO 设计实现了实时吞吐量,同时保持了具有竞争力的准确性,使 YOLOv1 对包括机器人和自主导航在内的延迟关键领域具有吸引力[10,11]。随后快速迭代:YOLOv2(2017年)引入了批归一化、锚框和多尺度训练以增强跨目标尺度的鲁棒性[12];YOLOv3(2018年)加深了骨干网络(Darknet-53)并利用多尺度特征图,建立了学术界和工业界广泛采用的基线[13,14,5,15]。

随着航空成像、农业和医学分析等领域对准确性需求的增长,架构变得多样化。YOLOv4(2020年)整合了 CSPNet、改进的激活函数和高级训练策略(如马赛克增强、CIoU)[16]。Ultralytics 的 YOLOv5(2020年)普及了原生 PyTorch 模块化工具链,便于适应分割、分类和边缘部署。随后的社区版本(YOLOv6、YOLOv7)集成了参数高效模块和受 Transformer 启发的模块,在保持实时推理的同时推动准确性提升[17,18]。Ultralytics 随后使用 YOLOv8(解耦头、无锚框预测)[19,20]、YOLOv9(GELAN、渐进蒸馏)[21]、YOLOv10(延迟平衡分配)[22] 和 YOLO11(效率与强小目标性能)[5] 重新架构了技术栈。并行的非 Ultralytics 系列 YOLOv12 和 YOLOv13 追求以注意力为中心的设计(多头自注意力、改进融合、更强正则化),但仍依赖 NMS 和 DFL,在低功耗设备上造成延迟和导出摩擦[23,24]。

针对这些瓶颈,YOLO26 推进了部署优先的理念:它移除 DFL,采用端到端(无NMS)推理,并引入 ProgLoss 和 STAL 以实现稳定性和小目标保真度,同时通过 MuSGD 加速训练。图1总结了这一轨迹,并明确了 YOLO26 作为第一个原生统一目标检测、实例分割、分类、姿态/关键点检测和定向边界框的 Ultralytics 版本。

本文旨在提供对 Ultralytics 如何将 YOLO 系列塑造成当前形态( culminating in YOLO26)的整合理解。通过系统比较这四个里程碑版本,本综述不仅强调了架构创新,还背景化了性能权衡、基准测试结果和部署就绪性。在此过程中,它阐述了 YOLO 从快速但有限的检测器发展为多功能、多任务、边缘优化框架的更广泛叙述,该框架继续在研究和工业领域为实时目标检测设定标准。


2 Ultralytics YOLO 模型的架构演进

为了提供精确的时间顺序和架构背景,我们将 Ultralytics 维护的版本与社区驱动的变体分开。表1列出了 Ultralytics 系列 YOLOv5(2020年)、YOLOv8(2023年)、YOLO11(2024年)和 YOLO26(2025年),突出单一供应商家族内的设计选择、能力和部署特征。相比之下,表2调查了独立于 Ultralytics 的主要社区驱动版本,包括 YOLOv1(2015年)、YOLOv2(2016年)、YOLOv3(2018年)、YOLOv4(2020年)、YOLOv6(2022年)、YOLOv7(2022年)、YOLOv9(2024年)和 YOLOv10(2024年),以及其他当代变体。这些表格共同呈现了架构创新、任务扩展和性能趋势的年表视图,阐明了该框架如何成熟到 YOLO26 所代表的状态(表1和表2)。

表1:Ultralytics YOLO 模型:关键架构创新、任务和框架

表格

模型(年份) 关键架构创新与贡献 任务 框架
YOLOv5 (2020) Ultralytics 首个 PyTorch 实现,取代 Darknet;引入 SiLU 激活和 PANet 颈部以改进特征聚合;灵活的无锚框头;通过现代训练工具、增强和导出选项使 YOLO 易于使用 目标检测、有限实例分割 PyTorch
YOLOv8 (2023) 下一代 Ultralytics 重新设计:C2f 骨干网络实现轻量级表示,解耦检测头改进收敛,完全无锚框设计;引入跨检测、分割、姿态/关键点和全景任务的任务统一;强大的开源生态系统集成 目标检测、实例分割、全景分割、关键点估计 PyTorch
YOLO11 (2024) 主要 Ultralytics 里程碑:添加 C3k2 CSP 瓶颈提高效率,C2PSA 模块(CSP + 空间注意力)实现鲁棒特征聚焦;将 YOLO 系列从检测/分割扩展到包括姿态估计和定向边界框 目标检测、实例分割、姿态估计、定向检测 PyTorch
YOLO26 (2025) 边缘优化旗舰:通过原生端到端预测器消除 NMS,移除 DFL 实现更快导出和更简单回归;引入 ProgLoss(渐进损失平衡)和 STAL(小目标
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐