计算机视觉·ZegFormer

2301_80132162

778人浏览 · 2025-11-29 23:53:25

2301_80132162 · 2025-11-29 23:53:25 发布

ZegFormer

创新点

核心思想是：对于像素进行分类的操作不符合人类的思维方式，我们擅长对于一个区域(Segment)进行分类。

因此，论文提出将 ZS3 解耦为两个独立子任务：

类无关的图像分组
把像素分成不同区域（segments），不依赖类别信息，因此具有天然的泛化性。
区域级别 zero-shot 分类（Segment-level Zero-Shot Classification）

对每个 segment 做类别预测。由于这是区域级别而非像素级别，因此可以自然使用像 CLIP 这样的大规模视觉-语言模型。
这一解耦使得模型更贴近人类的分割过程（先分块再识别）。

在这里插入图片描述

*新定义

作者对于ZS3和GZS3的新定义方式，还是比较有意思
简单来说就是把语义分割看成两个部分：

先对图像进行分块，例如 $R\mathcal{R}$ 表示多个区域，这些区域不重叠
然后找到一种标签映射关系 $L\mathcal{L}$ ，用于将这些区域映射到标签集合

在这里插入图片描述

方法

块嵌入

作者借助了MaskFormer的经典思想，引入N个可以学习的块嵌入，用于编码图像中的嵌入， $G∈RN×DG\in R^{ N \times D}$
借助一个视觉模型如ResNet+像素级解码器得到特征图 $F (I) ∈ R^{D×H×W}$ ，这个特征图大小与原始图像一致。
将块嵌入和特征图送入一个解码器得到学习后的块嵌入 $G∈RN×DG\in R^{ N \times D}$ ，这个块嵌入可以直接用于CLIP的分类。

在这里插入图片描述

利用该块嵌入与文本嵌入进行相似度计算，得到每一个块嵌入的分布 $p∈RN×Cp\in R^{N \times C}$
与MaskFormer不同的是，由于是零样本语义分割，没有基于MLP的线性层，而是通过将CLIP文本编码器的嵌入与块嵌入进行相似度计算来实现学习类别的概率分布。
与MaskFormer一致，引入了no object用于学习分类概率。

掩码嵌入

与MaskFormer一致，作者引入了一个块掩码嵌入 $\in R^{ N \times D}$ ，用于学习特征图中的掩码 $m∈RH×Wm\in R^{ H \times W}$ 。

在这里插入图片描述

作者对原始图像和掩码图像进行融合操作，然后送给CLIP的视觉编码器提取图像嵌入 $A∈RN×DA\in R^{N\times D}$
这一部是不需要训练的。
类似块嵌入，计算相似度，得到如下概率分布： $\in R^{N \times C}$

训练

使用二分图匹配得到最接近的类别
对于每一个块嵌入，计算交叉熵损失。
对于生成的掩码损失，与真实掩码计算DICE和FOCAL损失。

推理

未完待续
推理阶段就是结合两个概率分布，乘以得到掩码，进行求和。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git