【CVPR26-俞思悦-西交利物浦大学】TALENT：面向指代表达图像分割的目标感知高效微调方法

是王同学呀

410人浏览 · 2026-04-17 08:16:31

是王同学呀 · 2026-04-17 08:16:31 发布

文章：TALENT: Target-aware Efficient Tuning for Referring Image Segmentation

代码：https://github.com/Kimsure/TALENT

单位：西交利物浦大学、利物浦大学、中国石油大学（华东）、北京科技大学、北京交通大学

一、问题背景

1. 任务定义

RIS需要建立文本描述 ↔ 视觉区域的一对一精确匹配，对类别、属性、空间关系的细粒度对齐要求极高，是视觉-语言理解中极具挑战的任务。

2. 现有方法痛点

全参数微调（PFT）：效果好但计算开销巨大，模型扩展能力差。
参数高效微调（PET）：仅训练少量参数，轻量化高效，但无法区分同类别不同实例，出现非目标激活（NTA）。
量化问题：论文提出NTA-IoU指标，专门衡量模型错误分割到同类别非目标区域的比例，分数越高代表NTA问题越严重。

3. 核心矛盾

现有PET模型只关注语义类别，忽略文本描述的实例级细节（如“准备击球的棒球手”而非任意棒球手），最终分割到显著但错误的物体。

二、方法创新（核心详解）

TALENT整体架构基于冻结DINOv2-Reg视觉编码器+冻结CLIP文本编码器，仅训练少量新增模块，实现目标感知的高效微调。

1. 总设计思路

用修正成本聚合器（RCA） 做高效视觉-文本特征融合。
用目标感知学习机制（TLM） 双重校准特征，抑制NTA。
Transformer解码器输出最终分割掩码。

2. 核心模块1：修正成本聚合器（RCA）

解决问题：传统跨模态融合易产生无关交互，无法精准聚焦文本指向区域。创新点：

构建向量化成本体（cost volume），建模视觉-文本匹配关系。
使用ReLU过滤负向匹配响应，只保留文本相关的正向对齐。
引入可学习对角矩阵做残差缩放，最小化对冻结主干的干扰。作用：把文本信息注入视觉特征，让模型初步“看懂”文本指向的区域。

3. 核心模块2：目标感知学习机制（TLM）

TLM包含两个互补学习目标，协同解决NTA：

（1）上下文成对一致性学习（CPCL）

利用CLIP句子级全局文本特征，构建文本增强的特征亲和图。
强制视觉特征的相关性与文本引导的相关性对齐。
学习上下文感知的语义关联，粗定位目标区域。效果：让特征关注文本描述的整体语境，而非单纯类别。

（2）目标中心对比学习（TCCL）

构造正/负文本对：正样本是目标描述，负样本是同图其他物体描述。
用对比损失拉近视觉特征与正文本、推远与负文本。
强化实例级细粒度区分能力。效果：精准锁定唯一目标实例，彻底区分同类别不同物体。

4. 总损失函数

总损失由三部分构成：

文本到像素判别损失（主损失）
CPCL成对一致性损失
TCCL对比损失三者联合优化，实现粗定位+细粒度区分，全面抑制NTA。

三、实验结果

实验在RefCOCO / RefCOCO+ / G-Ref三大标准数据集开展，使用oIoU、mIoU、Precision@X评估。

1. 定量SOTA

超越所有PET方法：在RefCOCO上mIoU达**77.8%**，超DETRIS 1.8%。
超越全参数微调（PFT）方法：优于ReMamber、CoHD等。
超越大模型方案：比LISA-Vicuna-13B高3.6%~4.7% oIoU。
G-Ref val集mIoU提升**2.5%，Precision@0.9提升12.6%**。

2. NTA抑制效果

NTA-IoU从基线9.9%降至**2.1%，下降幅度超78%**，证明非目标激活被极大缓解。

3. 参数量效率

总可训练参数仅22.77M，远低于传统方案，在轻量化PET模型中性能第一。

4. 可视化结果

对比方法：激活同类别所有显著物体。
TALENT：只激活文本描述的唯一目标，分割掩码与GT高度吻合。

四、优势与局限

1. 核心优势

首次定义并量化NTA问题，为PET-RIS提供新评测维度。
RCA+TLM双模块设计，精准解决同类别实例混淆。
高效轻量化：冻结主干、仅训少量参数，训练成本极低。
泛化性强：TLM可兼容cross-attention等其他跨模态结构。
SOTA性能：在所有主流数据集全面领先。

2. 局限

依赖冻结的DINOv2-Reg与CLIP，对主干有一定选型约束。
在极端复杂背景、小目标、遮挡严重场景仍有少量误差。
暂未适配实时推理部署，侧重精度与训练效率。

五、一句话总结

TALENT针对PET-RIS中普遍存在的非目标激活（NTA）痛点，提出修正成本聚合器+目标感知双学习机制，在极低参数量下实现精准文本-目标实例对齐，全面刷新参考图像分割SOTA，为轻量化视觉-语言分割提供了全新解决方案。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git