多模态-8 YOLO World

YOLO-World是一种轻量级开放集合目标检测模型，基于YOLOv8架构，结合CLIP文本编码器实现多模态检测。相比GroundingDINO，它更适用于已知类别的开放检测场景，通过Vision-Language PAN实现图文特征对齐，在消费级显卡上可达70+FPS。模型采用YOLO主干网络提取图像特征，CLIP编码文本类别，最终输出检测框和类别预测。其创新点在于高效处理预定义类别列表，而非自

_Old_Summer

373人浏览 · 2026-02-01 10:24:25

_Old_Summer · 2026-02-01 10:24:25 发布

这篇文章介绍多模态模型-YOLO World

多模态基础知识介绍可以看：多模态-1 基础理论

Grounding DINO介绍可以看：多模态-7 Grounding DINO

CLIP介绍可以看：多模态-2 CLIP

YOLO World原论文:《YOLO-World: Real-Time Open-Vocabulary Object Detection》

YOLO World类似Grounding DINO，也是解决开放集合目标检测的问题，但是使用的图像编码器是YOLO(具体是YOLO V8)，相比于以往的开放集合目标检测模型更轻量，推理部署阶段可进一步配合重参数化的技巧提升推理速度，使YOLO World接近于原始YOLO的速度，消费级显卡上可达70+ FPS。

一模型结构与训练

YOLO World整体结构如下：

输入依旧是<图像，文本>，但是相比于Grounding DINO，YOLO World输入的文本是类别名称列表，而Grounding DINO是任意格式的文本。

YOLO-World 更适合“我知道要检测什么，只是模型没学过”的场景，而Grounding DINO 更适合“我用语言描述我想找的东西”的场景。

将图片输入到YOLO的Backbone中进行图像特征提取，将类别文本输入到Text Encoder中进行文本编码特征提取(论文中使用的Text Encoder是CLIP)，利用Vision-Language PAN进行图像特征、文本编码特征的语义对齐，将语义对齐后的特征输入到Text Contrastive Head、Box Head中得到预测类别和矩形框坐标输出，和真实标签计算损失反向梯度传播训练整个YOLO World。

1.1 Text Encoder

利用CLIP对输入的文本类别列表，如[cat,dog,apple]，进行特征编码表示，得到[C,D]大小的编码表示矩阵，其中C是类别的个数、D是文本特征编码表示的嵌入向量维度。如果输入的是一整段的文本，则利用n-gram方法从文本中提取出文本类别列表，再进行特征编码表示，比如输入的是“a cat and a dog eat apple”，需要借助n-gram方法从这段文本中提取出来要检测的类别名词，然后形成类别名称列表再输入到CLIP中进行特征编码表示。

1.2 Vision-Language PAN

1.3 训练

二实验结果

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git