计算机视觉·DETR

2301_80132162

347人浏览 · 2025-11-30 17:03:51

2301_80132162 · 2025-11-30 17:03:51 发布

DETR

核心创新点

不需要手工设计的锚框了
不再需要NMS等繁琐的操作。

方法

图像特征编码

首先通过CNN+1x1卷积得到特征图，这一步是提取图像特征，同时为了减少图像token的长度。
在这里插入图片描述

Transformer

DETR设计了N个可以学习的query $∈RN×D\in R^{N\times D}$ ，其中N=100，表示查询的数量
如何理解这些查询？每一个查询都会生成一个分类和锚框，N的数量大于图像中实际存在的数量。
这些query向量首先经过自注意力进行交互。
然后作为注意力矩阵中的Q和来自图像特征(编码器输出)的Q和K进行交互。
最终输出的维度也是 $RN×DR^{N\times D}$ ，这N个锚框经过FFN分别得到分类结果和锚框坐标。

损失计算

由于N的数量肯定是大于图像中真实锚框的数量和标签集M，因此作者引入了一个No Object作为新的标签集。
就像NMS一样，作者需要减少锚框的数量。
具体来说，使用匈牙利二分图匹配算法得到生成的锚框与真实锚框之间的匹配关系，就是一个关系矩阵C $∈RM×N\in R^{M\times N}$
真实锚框一定有一个生成的锚框对应，但反之不一定。

分类和锚框损失

对于有与真实锚框对应关系的查询结果(准确来说是该查询向量经过transformer和FFN输出后的标签和锚框坐标)，分别计算交叉熵和L1损失
对于没有与任何真实锚框匹配的查询结果，也需要计算分类损失，其中"真实类别"为作者引入了的No Object类别。
对于锚框损失，没有匹配上的查询结果不需要计算。
最后，只对匹配上的查结果计算GIoU 损失，用于进一步优化锚框之间的重叠程度。

总损失：N个分类损失，M个锚框和GIoU损失
前者优化预测类别，后者直接优化锚框及其重叠程度。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git