TPAMI 2025 | SDNet-A 融合注意力与多尺度对比特征编码，实现轻量级显著目标检测精度突破

近期，Zhuo Su等学者提出的SDNet/STDNet模型，凭借像素差分卷积（PDC）和差分卷积重参数化（DCR）等核心创新，在参数量不足1M的前提下，实现了图像/视频显著目标检测的极致效率与精度平衡：在Jetson AGX Orin嵌入式设备上，图像检测速度达46 FPS，视频检测更是突破150 FPS，远超同类轻量模型，同时保持顶尖检测精度。此外，STDC还借鉴了LBP-TOP的设计思想，但

小白学视觉

583人浏览 · 2026-03-23 19:01:07

小白学视觉 · 2026-03-23 19:01:07 发布

点击上方“小白学视觉”，选择加"星标"或“置顶”
重磅干货，第一时间送达

在物联网、嵌入式设备普及的当下，计算机视觉任务对模型的效率和精度提出了双重挑战——既要跑得快，又要认得准。显著目标检测（SOD）作为计算机视觉的基础任务，更是如此：它需要快速定位图像/视频中最具视觉辨识度的区域，却常因模型复杂、计算成本高，难以在资源受限的设备上落地。

近期，Zhuo Su等学者提出的SDNet/STDNet模型，凭借像素差分卷积（PDC）和差分卷积重参数化（DCR）等核心创新，在参数量不足1M的前提下，实现了图像/视频显著目标检测的极致效率与精度平衡：在Jetson AGX Orin嵌入式设备上，图像检测速度达46 FPS，视频检测更是突破150 FPS，远超同类轻量模型，同时保持顶尖检测精度。今天，我们就来拆解这篇聚焦实时显著目标检测的优质研究。

论文信息

题目： Rapid Salient Object Detection With Difference Convolutional Neural Networks

基于差分卷积神经网络的快速显著目标检测

作者： Zhuo Su, Li Liu, Matthias Müller, Jiehua Zhang, Diana Wofk, Ming-Ming Cheng, Matti Pietikäinen

一、痛点：现有SOD模型的效率与精度难以两全

显著目标检测模拟人类视觉系统，能快速定位图像/视频中最突出的区域，是自动驾驶、视频监控、移动端视觉应用等场景的核心基础。但现有方法存在两大痛点：

经典方法依赖手工设计特征，虽轻量但精度低，无法捕捉复杂场景的显著特征；
深度学习方法虽精度提升，但多依赖复杂架构或重型骨干网络，参数量大、推理慢，在嵌入式设备上难以实时运行。

即便部分轻量级SOD模型试图平衡效率与精度，也因结构设计缺陷（如特征表示能力不足、多分支计算冗余），最终陷入“精度高则速度慢，速度快则精度差”的困境（见图1）。

图1：现有轻量级SOD模型的效率-精度权衡普遍不理想

二、核心思路：把“对比线索”嵌进卷积，还能无损重参数化

针对上述问题，研究团队的核心思路是：借鉴经典SOD“中心-周边对比”的启发式思想，将“特征对比”直接编码到卷积操作中，同时通过重参数化消除推理阶段的计算冗余，实现“训练时多分支学特征，推理时单分支快运行”。

1. 整体架构：SDNet（图像）与STDNet（视频）

先来看模型的整体架构，这也是理解核心创新的基础：

SDNet（空间差分网络）：针对图像显著目标检测，以PiDiNet为基础，在骨干层融合多种像素差分卷积（PDC）和标准卷积，通过自顶向下的特征细化流程生成全分辨率显著图（见图3、图4）；
STDNet（时空差分网络）：针对视频显著目标检测，在SDNet骨干基础上，新增时空差分模块（STDM），通过时空差分卷积（STDC）捕捉运动与外观的动态变化，最终实现时空特征的融合与细化（见图8）。

图3：SDNet骨干网络结构示意

图4：SDNet特征细化与显著图生成流程

图8：STDNet整体架构（视频显著目标检测）

2. 像素差分卷积（PDC）：让卷积直接学“对比特征”

传统卷积通过核权重与像素强度的内积计算输出，只能捕捉像素的“绝对强度”；而PDC则先计算局部区域内的像素差值，再与核权重做内积，直接编码“像素间的对比线索”——这正是显著目标检测的核心：显著区域往往因与周边像素的视觉差异（颜色、纹理、亮度）而突出。

研究团队设计了多种PDC变体：中心PDC、角度PDC、径向PDC，分别从中心-周边、角度、径向方向捕捉特征对比（见图2）。这些PDC算子能像高通滤波器一样，突出图像中的高频信号（如物体边界），而标准卷积则保留低频信号（如物体内部区域），两者结合让模型既能精准定位显著目标，又能完整保留目标轮廓。

图2：不同类型像素差分卷积（PDC）的像素对选择策略

3. 差分卷积重参数化（DCR）：训练多分支，推理单分支

PDC虽能提升精度，但多分支的PDC+标准卷积会增加推理时的计算开销。为此，研究团队提出DCR策略：

训练阶段：每层同时使用多种PDC和标准卷积分支，学习不同维度的对比特征与基础特征，通过加权求和融合分支输出；
推理阶段：将所有PDC分支转换为标准卷积，再融合所有分支的参数，最终每层仅保留一个标准卷积核。

这一操作让模型在训练时充分学习丰富的对比特征，推理时却无额外计算和参数开销——相当于“训练时多学多练，推理时轻装上阵”。从频域角度看，DCR让单个标准卷积既能保留低频特征，又能继承PDC突出高频特征的能力（见图5），这是单纯重参数化多个标准卷积无法实现的。

图5：PDC增强高频信号（FFT2结果），DCR保留这一优势

4. 时空差分卷积（STDC）：把PDC扩展到视频领域

针对视频显著目标检测（VSOD），团队将PDC从空间域扩展到时空域，提出STDC：把3D时空体积切片为W-T（时间-宽度）和H-T（时间-高度）平面，在这些平面上部署类似PDC的卷积操作（见图6），捕捉视频帧间的运动对比与空间对比。

STDC保留了PDC“像素差值编码对比”的核心，同时兼容DCR策略——训练时用多分支STDC+标准卷积学习时空特征，推理时融合为单分支标准卷积，确保视频检测的实时性。此外，STDC还借鉴了LBP-TOP的设计思想，但相比传统LBP-TOP的固定规则，STDC的核权重可从数据中学习，能自适应捕捉视频中的动态显著特征（见图7）。

图6：时空差分卷积（STDC）的正交切片策略

图7：H-T/W-T平面上的中心/角度STDC示意

三、实验：参数不足1M，速度精度双碾压

研究团队在多个主流数据集（DUTS、ECSSD、DAVSOD等）和硬件平台（RTX 2080 Ti、Jetson AGX Orin、Jetson Xavier NX）上开展实验，验证了模型的性能：

1. 图像显著目标检测（ISOD）

SDNet参数量＜1M，在RTX 2080 Ti上推理速度达252 FPS，Jetson AGX Orin上达46 FPS——比同类轻量模型快2~6倍；精度上，SDNet在ECSSD数据集上的最大F-measure达0.910，远超次优模型（0.899），且物体边界检测更清晰（见图9）。

即便引入MobileViTv2的轻量级注意力模块（SDNet-A），模型仍保持轻量性，在ImageNet预训练后精度进一步提升，成为“速度最快+精度顶尖”的轻量级ISOD模型（见表2、表3）。

图9：SDNet与其他模型的定性对比（物体边界更清晰）

2. 视频显著目标检测（VSOD）

STDNet/STDNet-A参数量仍＜1M，在RTX 2080 Ti上达482 FPS，Jetson AGX Orin上达150 FPS（比同类模型快3倍以上），即便在资源更受限的Jetson Xavier NX上，也能达到28 FPS的实时帧率。

精度上，STDNet-A在DAVSOD、VOS等数据集上的F-measure和MAE指标均优于现有轻量模型，且STDM模块有效增强了视频帧的时间一致性，避免显著目标在帧间“跳变”（见图12、图13）。

图12 图12：STDM增强视频帧时间一致性（右侧为STDNet结果）

图13 图13：STDC vs 标准卷积（STDC捕捉运动线索更精准）

3. 消融实验：核心模块的有效性验证

团队还通过消融实验验证了各模块的价值：

DCR+PDC组合显著优于仅用标准卷积的基线模型，证明“对比特征编码”对SOD的必要性（见表6）；
PDC分支的系数更大，说明模型需通过权重补偿像素差值的低幅值，同时依赖标准卷积的低频特征（见图11）；
STDM模块是视频检测的核心，移除后精度大幅下降，证明时空对比线索的重要性（见表7）。

图11 图11：PDC与标准卷积分支的系数/输出值对比

四、总结：轻量级SOD的新范式

这篇研究的核心价值，在于为资源受限场景下的显著目标检测提供了全新范式：

把经典SOD的“对比思想”与现代CNN结合，用PDC/STDC直接编码对比特征，摆脱了“手工设计特征”和“重型网络堆精度”的困境；
DCR策略实现了“训练丰富性”与“推理高效性”的统一，为轻量级网络设计提供了新思路；
模型参数量＜1M，却在嵌入式设备上实现实时帧率，且精度领先，真正落地“轻量、快速、高精度”的目标。

无论是图像还是视频显著目标检测，SDNet/STDNet都为物联网、嵌入式视觉应用提供了高性价比的解决方案，也为其他密集预测任务的轻量级设计提供了参考。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git