YOLO26 正式发布:为边缘计算而生的下一代 YOLO,全端到端、无 NMS、CPU 性能提升 43%
YOLO26:专为边缘部署优化的目标检测模型革新 Ultralytics于2026年1月正式发布YOLO26,标志着YOLO系列向"真实世界落地"方向的重要升级。该版本围绕边缘部署、训练稳定性和工程简化进行了系统性重构,核心目标是将AI从云端带入真实世界。YOLO26的主要创新包括:原生端到端设计(无NMS)、移除DFL损失函数、引入MuSGD优化器(融合SGD与大模型训练经验
2026 年 1 月,Ultralytics 正式发布了 YOLO26。
这是 YOLO 系列在“真实世界落地”方向上的一次重要跃迁,也是一次围绕边缘部署、训练稳定性和工程简化的系统性重构。
YOLO26 最早亮相于 YOLO Vision 2025(YV25)大会。在大会上,Ultralytics 创始人兼 CEO Glenn Jocher 明确提出了一个核心目标:
将 AI 从云端带到真实世界中,让每个人都能用得起、用得稳。
在这一理念指导下,YOLO26 不再一味追求模型复杂度或极限精度,而是从架构、训练策略和部署流程三个层面,全面优化真实生产环境中的使用体验。
一、YOLO26 是什么?为什么值得关注?
YOLO26 是一个从零开始、专为边缘和低功耗设备设计的 YOLO 模型系列。
它的核心定位可以概括为三点:
-
更简单:去掉历史包袱,删除不必要的复杂模块
-
更快:CPU 推理性能最高提升 43%
-
更好部署:原生端到端,无需 NMS,导出更友好
YOLO26 并不是对 YOLO11 的“打补丁式改进”,而是一次理念驱动的整体升级。
二、YOLO26 的核心设计原则
1️⃣ 简洁性:原生端到端,无 NMS
YOLO26 是一个真正的端到端模型,可以直接输出最终预测结果:
-
不需要非极大值抑制(NMS)
-
不依赖额外的后处理逻辑
-
推理路径更短、延迟更低
这一方向最早由清华大学王傲在 YOLOv10 中提出,而 YOLO26 则在工程层面将其打磨得更加成熟、可部署。
好处非常直接:
通过移除复杂模块、统一推理路径,YOLO26:
的混合体。
这一设计灵感来自 Moonshot AI 在 Kimi K2 训练中的实践经验,将大模型领域的优化思想引入了计算机视觉。
MuSGD 带来的变化:
对大规模训练、复杂数据集尤为友好。
YOLO26 完全移除了 DFL。
这一改变带来的好处包括:
3.2 端到端无 NMS 推理
传统目标检测流程中,NMS 是一个不可或缺但“麻烦”的步骤:
YOLO26 将“重复框过滤”这一过程内化到网络中:
这对 实时系统和工程部署 是一次非常实用的升级。
3.3 ProgLoss + STAL:小目标检测显著增强
YOLO26 在损失设计上引入了两项关键机制:
它们的核心作用是:
在以下场景中提升尤为明显:
3.4 MuSGD:把大模型训练经验带入 CV
MuSGD 并不是简单“换个优化器名字”,而是一次理念迁移:
这使得 YOLO26:
3.5 CPU 推理速度提升高达 43%
这是 YOLO26 最直观、也最具吸引力的数据之一。
在 Nano 版本上:
这意味着:
3.6 针对多任务的专项优化
YOLO26 并不只是检测模型,而是一个统一视觉模型家族。
🔹 实例分割
🔹 姿态估计
🔹 旋转框(OBB)检测
-
推理更快
-
系统更稳定
-
更容易在多平台、多硬件环境中落地
2️⃣ 部署效率:为边缘设备而生
YOLO26 的设计从一开始就考虑了现实问题:
-
摄像头端
-
机器人
-
显著降低了模型体量和内存占用
-
导出到 ONNX / TensorRT / TFLite / CoreML / OpenVINO 更稳定
-
在 无 GPU 场景下依然具备实时性能
-
工业终端
-
嵌入式 CPU / 边缘加速器
-
3️⃣ 训练创新:MuSGD 优化器
YOLO26 引入了一种全新的优化器 —— MuSGD。
它是:
-
SGD(计算机视觉经典)
-
-
Muon(源自大语言模型训练经验)
-
-
-
训练过程更稳定
-
收敛速度更快
-
不同模型尺寸下表现更可预测
三、YOLO26 的关键创新详解
3.1 移除分布焦点损失(DFL)
分布式焦点损失(DFL)在过去多个 YOLO 版本中被广泛使用,用于提升边界框回归精度。
但它也带来了明显问题:
-
增加模型复杂度
-
固定回归范围
-
导出和硬件适配困难
-
边界框预测流程显著简化
-
对超大目标更友好
-
更容易在低功耗硬件上稳定运行
-
增加延迟
-
增加系统复杂度
-
不同硬件 / 运行时行为不一致
-
推理阶段直接输出最终结果
-
不再依赖额外后处理
-
ProgLoss(渐进式损失平衡)
-
STAL(小目标感知标签分配)
-
稳定训练过程
-
减少震荡
-
强化小目标学习能力
-
IoT
-
机器人视觉
-
航拍 / 遥感影像
-
远距离、小尺寸目标检测
-
保留 SGD 在视觉任务中的泛化优势
-
引入 Muon 思想,提升稳定性
-
在更大模型上也能稳定训练
-
减少对超参数的敏感性
-
CPU 推理性能最高提升 43%
-
无 GPU 也能满足实时需求
-
AI 不再“必须上 GPU”
-
视觉系统可以真正跑在设备端
-
引入语义分割损失
-
多尺度原型模块
-
掩码质量更高、更稳定
-
集成 RLE(Residual Log-Likelihood Estimation)
-
更精确的关键点定位
-
解码流程更快
-
新增角度损失
-
缓解边界角度不连续问题
-
特别适合航拍、遥感和方向敏感目标
-
更适合工程化批量训练
四、YOLO26 支持的任务与模型
YOLO26 延续了 Ultralytics 一贯的统一模型设计:
模型 任务 训练 验证 推理 导出 YOLO26 目标检测 ✅ ✅ ✅ ✅ YOLO26-seg 实例分割 ✅ ✅ ✅ ✅ YOLO26-pose 姿态估计 ✅ ✅ ✅ ✅ YOLO26-obb 旋转框检测 ✅ ✅ ✅ ✅ YOLO26-cls 图像分类 ✅ ✅ ✅ ✅ 所有模型均提供 n / s / m / l / x 五种尺寸,覆盖从极端轻量到高精度场景。
五、为什么 YOLO26 特别适合边缘部署?
总结来看,YOLO26 在边缘场景中具备以下优势:
-
🚀 CPU 性能提升显著
-
📦 模型更小,内存占用更低
-
🔧 无 DFL、无 NMS,导出更简单
-
🔄 支持多种部署格式
-
🧠 训练稳定,工程可控
六、结语:YOLO26 不只是更快,而是更“能用”
YOLO26 的价值,并不只体现在跑分或参数量上。
它代表的是 YOLO 系列一次明确的转向:
从“研究驱动”走向“真实世界驱动”。
对于研究者,它提供了更稳定的训练与更干净的架构;
对于工程团队,它意味着更低的部署成本与更高的系统可靠性。如果你关注 边缘 AI、实时视觉系统或工程落地,YOLO26 值得认真研究。
-
更多推荐
所有评论(0)