1、计算机视觉基础

1.1.1 图像采样、图像滤波和图像增强

1.1.2 特征提取和特征选择

1.1.3 边缘提取

1.1.4 相机模型和畸变矫正

1.1.5 图像分类和聚类

1.1.6 尺度不变特征变换-SIFT

SIFT(尺度不变特征变换)的核心论文由 David G. Lowe 奠定,后续衍生出轻量化、加速与深度学习增强版本。以下按奠基论文→核心变体→加速实现分类,提供简介、论文链接、权威代码,覆盖学术复现、工程部署与实时应用。


一、SIFT 奠基论文(必读)

论文标题

发表

核心贡献

论文链接

官方 / 权威代码

Distinctive Image Features from Scale-Invariant Keypoints

IJCV 2004

SIFT 终稿,完整定义 DoG 金字塔、关键点定位、方向赋值、128 维描述子,成为局部特征黄金标准。

https://doi.org/10.1023/B:VISI.0000029664.99615.94arXiv: https://arxiv.org/abs/cs/0409063

🔗 Lowe 官方(C/MATLAB):http://www.cs.ubc.ca/~lowe/keypoints/

Object Recognition from Local Scale-Invariant Features

ICCV 1999

SIFT 首次提出,奠定尺度不变特征框架,后续 2004 年 IJCV 版为完善版。

https://doi.org/10.1109/ICCV.1999.790410

同上(1999 版算法包含在官方包中)


二、核心变体与增强(研究常用)

论文标题

发表

核心贡献

论文链接

代码链接

PCA-SIFT: A More Distinctive Representation for Local Image Descriptors

CVPR 2004

用 PCA 降维 128 维描述子至 36 维,加速匹配且保持区分性。

https://doi.org/10.1109/CVPR.2004.1315007

🔗 OpenSIFT 扩展:https://github.com/robwhess/opensift(需自行添加 PCA 模块)

SURF: Speeded Up Robust Features

ECCV 2006

用积分图加速 Hessian 检测,替代 DoG,速度提升数倍,成为 SIFT 工业替代。

https://doi.org/10.1007/11744023_32

🔗 OpenCV 内置:cv2.xfeatures2d.SURF_create()源码:https://github.com/opencv/opencv_contrib

RootSIFT: Thresholded Euclidean Distance vs. Chi-Squared Distance for Binary Feature Matching

CVPR 2012 (Workshop)

对 SIFT 描述子做 L1 归一化后开方,匹配精度显著提升,无需重新训练。

https://doi.org/10.1109/CVPRW.2012.6238974

🔗 轻量实现:https://github.com/rmislam/Python-RootSIFT


三、高效实现与实时部署(工程必备)

论文标题

发表

核心贡献

论文链接

代码链接

Popsift: a faithful SIFT implementation for real-time applications

MMSys 2018

基于 CUDA 的实时 SIFT,严格遵循 Lowe 2004 标准,支持 1080p 实时流。

https://dl.acm.org/doi/10.1145/3204949.3208136

🔗 官方开源:https://github.com/acmmmsys/2018-PopSift

SiftGPU: A GPU Implementation of Scale Invariant Feature Transform

VMV 2007

首个 GPU 加速 SIFT,支持多尺度检测与描述子生成,适合并行计算场景。

https://dl.acm.org/doi/10.2312/VMV/VMV07/129-136

🔗 官方开源:https://github.com/pitzer/SiftGPU


四、常用开源实现汇总(快速上手)

实现名称

语言

特点

适用场景

代码链接

OpenCV SIFT

C++/Python

工业级稳定实现,支持 cv2.SIFT_create(),无需手动编译。

快速原型、工程部署

🔗 官方源码:https://github.com/opencv/opencv/blob/master/modules/features2d/src/sift.dispatch.cpp

OpenSIFT (Rob Hess)

C

最贴近 Lowe 论文的经典实现,模块化强,适合算法研究。

学术复现、算法调试

🔗 官方开源:https://github.com/robwhess/opensift

Python-SIFT

Python

纯 Python 轻量实现,基于 NumPy,适合教学与快速验证。

教学演示、小型项目

🔗 开源实现:https://github.com/ianmcook/SIFT-Python


五、使用建议

  1. 学术研究:优先阅读 Lowe 2004 年 IJCV 论文,使用 OpenSIFT 或 Lowe 官方代码复现,确保与原始算法一致。

  2. 工程部署:直接使用 OpenCV 的 cv2.SIFT_create(),兼顾速度与稳定性;需实时处理时,选用 Popsift(CUDA)或 SiftGPU。

  3. 匹配优化:对 SIFT 描述子应用 RootSIFT 变换,可在不增加计算量的前提下提升匹配精度。

1.2 立体视觉

1.2.1 立体视觉

1.2.2 点云模型

1.2.3 3D视觉代码和论文(点云进化、3D 检测 / 多模态融合、SLAM 与视觉定位) 

一、2016:深度学习 3D 视觉元年(点云奠基)

1. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

2. 3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction

3. Volumetric and Multi-View CNNs for Object Classification on 3D Data

4. 3D-GAN: Learning a Probabilistic Latent Space of Object Shapes via 3D Generative Adversarial Modeling


二、2017-2019:点云进化、3D 检测爆发

5. PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space

6. VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

7. PointPillars: Fast Encoders for Object Detection from Point Clouds

8. PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection

9. DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation


三、2020:NeRF 时代开启(神经渲染革命)

10. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

11. MVSNet: Depth Inference for Unstructured Multi-view Stereo

12. PatchmatchNet: Learned Multi-View Patchmatch Stereo


四、2021-2022:NeRF 加速与扩展

13. Instant NGP: Instant Neural Graphics Primitives with a Multiresolution Hash Encoding

14. Point-NeRF: Point-based Neural Radiance Fields

15. NerfAcc: Efficient Neural Radiance Field Rendering with Acceleration Structures

16. MonoNeRF: Learning a Neural Radiance Field from One Image


五、2023:3D Gaussian Splatting(3DGS,实时渲染突破)

17. 3D Gaussian Splatting for Real-Time Radiance Field Rendering

18. Gaussian-SLAM: Real-Time Dense Mapping and Pose Tracking

19. DreamFusion: Text-to-3D using 2D Diffusion


六、2024-2026:Feed-Forward 3D 大模型(一步到位 3D 感知)

20. DUSt3R: Geometric 3D Vision Made Easy

21. MASt3R: Masked Autoencoders Meet 3D Vision

22. VGGT: Visual Geometry Grounded Transformer

23. LGM: Large 3D Gaussian Model

24. UniScale: Unified Scale-Aware 3D Reconstruction


七、3D 检测 / 多模态融合(自动驾驶核心)

25. BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

26. PETR: Position Embedding Transformation for Multi-View 3D Object Detection

27. OccNet: Occupancy Networks for 3D Reconstruction


八、SLAM 与视觉定位(机器人 / AR 核心)

28. ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual-Inertial and Multi-Map SLAM

29. DSO: Direct Sparse Odometry

30. VIO-SLAM: Visual-Inertial Odometry for Robust Localization

1.3 卷积神经网络

2、计算机视觉问题(图像识别、目标检测、图像分割、目标追踪、姿态估计)

2.1 图像识别问题

2.1.1 VGG系列

2.1.2 Resnet系列

2.1.3 迁移学习 Fine tuning

2.1.5 迁移学习 Inception系列

2.1.6 迁移学习 Mobilenet

2.1.7 卷积神经网络设计技巧

图像识别论文和代码(VGG、ResNet、Inception、MobileNet 四类经典 CNN 架构)

一、VGG (Visual Geometry Group)

1. 论文简介

VGG 由牛津大学 VGG 组提出,核心贡献是证明了通过堆叠小尺寸(3×3)卷积核的深层网络,能显著提升特征提取能力。相比 AlexNet 的大卷积核(11×11、5×5),3×3 卷积核在保持感受野的同时,大幅减少参数数量,且多层小卷积的非线性拟合能力更强。VGG 的核心架构分为 VGG16(13 个卷积层 + 3 个全连接层)和 VGG19,成为后续 CNN 的基础模块。

2. 论文信息

3. 代码地址

二、ResNet (Residual Network)

1. 论文简介

ResNet 由何恺明等人提出,解决了深度神经网络的梯度消失 / 爆炸问题,首次将 CNN 层数推至百层甚至千层级别。核心创新是 “残差连接(Residual Connection)”:通过跳跃连接(shortcut)让网络学习 “残差映射” 而非直接映射,使得深层网络仍能稳定训练且性能提升。ResNet 在 ILSVRC 2015 竞赛中斩获分类、检测、分割三项冠军,是至今最常用的骨干网络之一。

2. 论文信息

3. 代码地址

三、Inception (GoogLeNet)

1. 论文简介

Inception(初代名为 GoogLeNet)由谷歌提出,核心目标是在不显著增加计算量的前提下提升网络宽度和多尺度特征提取能力。核心创新包括:

  • 多分支卷积(1×1、3×3、5×5 卷积 + 池化并行),捕捉不同尺度特征;

  • 1×1 卷积实现 “瓶颈层”,降维减少计算量;

  • 取消全连接层,用全局平均池化替代,大幅减少参数。后续迭代包括 Inception v2/v3(优化卷积核、标签平滑)、Inception v4(融合 ResNet 残差连接)。

2. 论文信息

3. 代码地址

四、MobileNet

1. 论文简介

MobileNet 由谷歌提出,专为移动 / 嵌入式设备设计的轻量化 CNN,核心目标是在保证精度的前提下最小化计算量和模型大小。

  • MobileNet v1:提出 “深度可分离卷积(Depthwise Separable Convolution)”,将标准卷积拆分为深度卷积(逐通道卷积)+ 逐点卷积(1×1 卷积),计算量减少 8-9 倍;

  • MobileNet v2:引入 “逆残差连接” 和 “线性瓶颈层”,解决深度可分离卷积的特征退化问题;

  • MobileNet v3:融合 NAS(神经架构搜索)和 NetAdapt,优化激活函数(Hard-Swish)和网络结构,进一步平衡速度与精度。

2. 论文信息

3. 代码地址

总结

  1. VGG:核心是 “小卷积核 + 深网络”,奠定 CNN 堆叠范式,参数量大但易理解,适合学术研究基线;

  2. ResNet:通过残差连接突破网络深度限制,是至今最通用的骨干网络,工业界首选;

  3. Inception:多分支多尺度特征提取,兼顾精度与计算效率,启发后续 EfficientNet 等架构;

  4. MobileNet:深度可分离卷积实现轻量化,专为移动端设计,是边缘设备视觉任务的核心架构。

2.2  目标检测问题

2.2.1 目标检测

目标检测论文和代码(两阶段检测、单阶段检测、无锚框检测、轻量化 / 实时检测、Transformer 基检测)

一、两阶段目标检测(Two-Stage Detection)

核心特点

分 ** 候选区域生成(Stage1)+ 精细检测分类(Stage2)** 两步,先生成包含目标的候选框,再对候选框做分类和边框回归,精度高、鲁棒性强,是高精度检测的基础框架,缺点是推理速度相对较慢。

1. R-CNN: Rich feature hierarchies for accurate object detection and semantic segmentation

2. Fast R-CNN: Fast Region-based Convolutional Network for object detection

3. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

4. FPN: Feature Pyramid Networks for Object Detection

二、单阶段目标检测(One-Stage Detection)

核心特点

摒弃候选区域生成,直接从特征图上回归目标框和类别,单网络端到端推理,速度快、流程简单,兼顾精度与实时性,是工业界落地的主流选择,核心代表为 YOLO 和 SSD 系列。

1. YOLOv1: You Only Look Once: Unified, Real-Time Object Detection

2. SSD: Single Shot MultiBox Detector

3. YOLOv3: An Incremental Improvement

  • 发表:arXiv 2018(工业界经典实时检测模型,落地首选)

  • 核心简介:YOLO 系列的里程碑改进版,大幅提升精度且保持实时性。引入FPN 特征金字塔实现多尺度检测,解决小目标检测痛点;用Darknet-53作为骨干网络,替代 YOLOv2 的 Darknet-19,提升特征提取能力;采用多标签分类替代 Softmax,支持目标多类别标注;引入锚框聚类,让锚框更适配数据集。YOLOv3 在 COCO 数据集上 mAP 提升至 57.9%,推理速度达30 FPS成为工业界落地最广泛的实时检测模型,至今仍被大量使用。

  • 论文 PDF:arXiv→https://arxiv.org/pdf/1804.02767.pdf

  • 代码地址:官方 Darknet→https://github.com/pjreddie/darknet | PyTorch 复现→https://github.com/ultralytics/yolov3

4. YOLOv5: YOLOv5 🚀 - State-of-the-Art Object Detection

  • 发表:GitHub 2020(工业界主流实时检测模型,易用性拉满)

  • 核心简介:YOLO 系列的工程化极致优化版,无正式论文但工业界落地率第一。采用CSPNet作为骨干,减少计算量同时提升特征融合能力;设计自适应锚框计算、自适应图片缩放,适配不同数据集和输入尺寸;集成Mosaic 数据增强、CIoU 损失,提升训练效率和定位精度;提供多个尺度版本(s/m/l/x),兼顾移动端(YOLOv5s)和服务器端(YOLOv5x)。YOLOv5 推理速度快(YOLOv5s 达 140 FPS)、训练便捷、部署友好,是当前工业界实时检测的首选模型

  • 论文 / 文档:GitHub 官方说明→https://github.com/ultralytics/yolov5/wiki

  • 代码地址:官方 PyTorch→https://github.com/ultralytics/yolov5

5. YOLOv8: YOLOv8 🚀 - NEW State-of-the-Art Object Detection

  • 发表:GitHub 2023(YOLO 最新版,融合检测 / 分割 / 姿态识别)

  • 核心简介:YOLO 系列的新一代旗舰版,实现检测、实例分割、人体姿态识别多任务统一。替换骨干为C2f 模块,提升特征提取和融合效率;优化检测头为无锚框(Anchor-Free)设计,简化模型流程;采用Task-Aligned Assigner任务对齐分配策略,提升分类与定位的一致性;支持多平台无缝部署(PyTorch/ONNX/TensorRT/OpenVINO)。YOLOv8 在精度和速度上全面超越 YOLOv5,成为当前单阶段检测的 SOTA 落地模型

  • 论文 / 文档:GitHub 官方说明→https://github.com/ultralytics/ultralytics/wiki

  • 代码地址:官方 PyTorch→https://github.com/ultralytics/ultralytics

三、无锚框目标检测(Anchor-Free Detection)

核心特点

摒弃传统的锚框(Anchor)机制,直接从特征图上预测目标的中心点、宽高、关键点等信息,解决锚框带来的超参数敏感、计算量大、正负样本不平衡问题,模型更简洁、泛化能力更强。

1. CornerNet: Detecting Objects as Paired Keypoints

2. CenterNet: Objects as Points

3. FCOS: Fully Convolutional One-Stage Object Detection

四、轻量化 / 实时目标检测(移动端 / 边缘端)

核心特点

针对手机、嵌入式设备、自动驾驶、实时监控等落地场景,通过轻量化骨干、模型剪枝、量化、深度可分离卷积等手段,在保证一定精度的前提下,大幅减少模型参数量和计算量,实现高帧率(20+ FPS)、低显存推理。

1. MobileNet-SSD: SSD with MobileNet Backbone

2. YOLO-Lite: A Real-Time Object Detection Algorithm Optimized for Mobile Devices

  • 发表:arXiv 2018(超轻量 YOLO,适配低性能移动端)

  • 核心简介:针对低性能移动端(如入门级手机、单片机)做极致轻量化,基于 YOLOv2 改进。采用超轻量骨干(仅 10 层卷积),移除冗余的卷积层和池化层;用深度可分离卷积替换标准卷积,参数量仅1.0MB;简化检测头,减少输出通道数。YOLO-Lite 推理速度达200+ FPS(PC 端)、30+ FPS(移动端),精度略低但满足低性能设备的实时检测需求。

  • 论文 PDF:arXiv→https://arxiv.org/pdf/1811.05588.pdf

  • 代码地址:官方 TensorFlow→https://github.com/ultralytics/yolov3/tree/master/models/yololite | PyTorch 复现→https://github.com/ppriyank/YOLO-Lite

3. NanoDet: Ultra-Fast and Lightweight Object Detector

  • 发表:arXiv 2020(移动端无锚框轻量检测 SOTA)

  • 核心简介:专为移动端设计的无锚框轻量检测模型,兼顾速度和精度。采用ShuffleNetV2作为轻量化骨干,搭配PANet做特征融合;设计超轻量检测头(仅 3 层卷积),无锚框设计减少计算量;参数量仅0.98MB,推理速度达120 FPS(麒麟 990),精度超越 MobileNet-SSD、YOLO-Lite。NanoDet 支持ONNX/TensorRT/NCNN移动端部署,是当前移动端轻量检测的首选模型

  • 论文 PDF:arXiv→https://arxiv.org/pdf/2011.09020.pdf

  • 代码地址:官方 PyTorch→https://github.com/RangiLyu/nanodet | 移动端部署→https://github.com/RangiLyu/nanodet-ncnn

4. YOLOv5s/YOLOv8s: 轻量版 YOLO

五、Transformer 基目标检测(Transformer-Based Detection)

核心特点

将 NLP 领域的Transformer引入目标检测,通过自注意力(Self-Attention)机制建模图像的全局特征依赖,解决传统 CNN感受野有限、全局特征建模能力弱的问题,在复杂场景(遮挡、多目标)下精度更高,是当前目标检测的前沿方向。

1. DETR: End-to-End Object Detection with Transformers

  • 发表:ECCV 2020(Transformer 基检测开山之作,端到端检测)

  • 核心简介:首次将 Transformer 成功应用于目标检测,提出端到端的检测框架(DETR=Detection Transformer),摒弃传统的锚框、NMS 等手工设计。将图像特征和可学习的目标查询(Object Queries)输入 Transformer,通过解码器的自注意力直接输出目标的类别和边界框,无需后处理(NMS);用二分图匹配实现目标与查询的一一对应,解决正负样本分配问题。DETR 实现了真正的端到端检测,开启了 Transformer 基检测的新时代

  • 论文 PDF:ECCV 官方→https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123460044.pdf | arXiv→https://arxiv.org/pdf/2005.12872.pdf

  • 代码地址:官方 PyTorch→https://github.com/facebookresearch/detr

2. Faster DETR: Faster DETR with Conditional Spatial Encoding and Dual Attention

3. YOLOv9: YOLO with Transformers

  • 发表:arXiv 2024(YOLO 与 Transformer 融合,落地级 Transformer 检测)

  • 核心简介:将Transformer 与 YOLO 的工程化优势结合,提出YOLOv9,实现精度与速度的双重突破。设计C2f-Transformer 混合骨干,融合 CNN 的局部特征提取能力和 Transformer 的全局特征建模能力;提出自适应任务对齐(ATA),提升分类与定位的一致性;支持多尺度、多平台部署,在 COCO 数据集上 mAP 达53.6%,推理速度达60 FPS。YOLOv9 是工业界落地级的 Transformer 基检测模型,兼顾前沿性和实用性。

  • 论文 PDF:arXiv→https://arxiv.org/pdf/2402.13616.pdf

  • 代码地址:官方 PyTorch→https://github.com/WongKinYiu/yolov9

六、目标检测必备工具库与经典数据集

1. 主流工具库(封装经典 / 最新模型,开箱即用,支持训练 / 部署)

工具库

核心优势

代码地址

MMDetection

国内主流,PyTorch 框架,集成所有经典 / 最新检测模型(Faster R-CNN/YOLO/DETR),支持自定义数据集

https://github.com/open-mmlab/mmdetection

Detectron2

Facebook 官方,PyTorch 框架,主打两阶段 / 实例分割,Faster R-CNN/DETR 官方实现

https://github.com/facebookresearch/detectron2

Ultralytics

YOLOv5/YOLOv8/YOLOv9 官方库,PyTorch 框架,训练 / 部署一体化,支持多平台无缝导出

https://github.com/ultralytics/ultralytics

TensorFlow Object Detection API

TensorFlow 框架,适合工业界部署,集成 MobileNet-SSD/Faster R-CNN 等

https://github.com/tensorflow/models/tree/master/research/object_detection

2. 经典数据集(覆盖通用 / 专用场景,模型训练与评估的基准)

数据集

适用场景

目标数量 / 类别

官网地址

PASCAL VOC 2007/2012

通用场景检测

约 20k 张图 / 20 类

https://host.robots.ox.ac.uk/pascal/VOC/

MS COCO

通用场景检测 / 分割 / 姿态

约 330k 张图 / 80 类

https://cocodataset.org/

Cityscapes

城市场景检测(车辆 / 行人 / 道路)

约 5k 张图 / 30 类

https://www.cityscapes-dataset.com/

UA-DETRAC

交通场景车辆检测

约 140k 张图 / 1 类

https://detrac-db.rit.albany.edu/

Wider Face

人脸检测(多尺度 / 遮挡)

约 32k 张图 / 1 类

http://shuoyang1213.me/WIDERFACE/

2.2.2 人脸检测

人脸检测(经典传统方法、深度学习基础框架、轻量级 / 实时检测、高精度 / 复杂场景检测)

一、经典传统方法(深度学习前标杆,奠定人脸检测基础)

核心特点

基于手工特征 + 分类器实现,无需深度网络训练,计算量小、易部署,是深度学习人脸检测的基础,核心解决人脸特征建模、多尺度 / 姿态鲁棒性问题。

1. Viola-Jones: Rapid Object Detection using a Boosted Cascade of Simple Features

2. DPM-Human: Deformable Part Models for Human Detection

二、深度学习基础框架(开启人脸检测深度学习时代,经典基线)

核心特点

将 CNN 引入人脸检测,替代传统手工特征,大幅提升检测精度;针对人脸尺度小、分布密、姿态多样的特点,优化通用目标检测框架,奠定深度学习人脸检测的核心架构。

1. MTCNN: Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

2. Face R-CNN: Face Detection using Region Proposal Networks

  • 发表:arXiv 2017(两阶段人脸检测经典,高精度基线)

  • 核心简介:将 Faster R-CNN 适配人脸检测任务,提出专用的人脸区域提议网络(Face RPN),解决通用检测模型对人脸尺度适配性差的问题。针对人脸尺度分布特点,重新设计锚框(Anchor) 尺度和宽高比(以小尺度锚框为主);在 RPN 和检测头中加入人脸姿态分支,适配正面 / 侧脸 / 大角度人脸;用 ResNet+FPN 作为骨干网络,融合多尺度特征,提升小人脸检测精度。Face R-CNN 是两阶段人脸检测的经典基线,精度远超 MTCNN,适合对精度要求高的非实时场景。

  • 论文 PDF:arXiv→https://arxiv.org/pdf/1708.03982.pdf

  • 代码地址:PyTorch 实现→https://github.com/chengyangfu/face-rcnn | Caffe 实现→https://github.com/ShuangLI59/Face-R-CNN

三、轻量级 / 实时人脸检测(移动端 / 边缘端,适配落地场景)

核心特点

针对手机、嵌入式设备、实时监控、人脸打卡等落地场景,通过轻量化骨干、模型压缩、级联精简等手段,在保证检测精度的前提下,实现低计算量、高帧率、低显存推理,核心适配移动端实时检测、大流量视频流检测

1. RetinaFace: Single-stage Dense Face Localisation in the Wild

2. Ultra-Lightweight Face Detector (ULFD)

  • 发表:ICASSP 2020(超轻量人脸检测,适配低性能移动端)

  • 核心简介:专为低性能移动端(入门级手机、单片机、嵌入式设备) 设计的超轻量人脸检测器,解决 RetinaFace 轻量版仍需较大计算量的问题。采用自定义超轻量骨干网络(仅由深度可分离卷积和池化层构成),参数量仅1.0MB(RetinaFace-MobileNetV2 为 2.7MB);设计轻量级多尺度检测头,仅保留核心的分类和回归分支,移除冗余模块;针对人脸检测任务做极致的模型剪枝和量化,在保证小人脸检测精度的前提下,实现移动端 100+ FPS推理。ULFD 是低性能边缘设备的首选人脸检测器,适合人脸门禁、低成本监控等场景。

  • 论文 PDF:ICASSP 官方→https://ieeexplore.ieee.org/document/9054645 | arXiv→https://arxiv.org/pdf/1909.10903.pdf

  • 代码地址:官方 PyTorch→https://github.com/imistyrain/Ultra-Light-Fast-Generic-Face-Detector-1MB | ONNX 移动端部署→https://github.com/DefTruth/ulfd-onnx

3. BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs

四、高精度 / 复杂场景人脸检测(解决遮挡 / 小人脸 / 大姿态,学术 SOTA)

核心特点

针对野生场景(in the wild) 中的人脸检测痛点:小人脸(如远距人脸)、重度遮挡(口罩 / 墨镜 / 手挡)、大角度姿态(90° 侧脸 / 仰头)、密集人脸,通过特征增强、注意力机制、多任务融合、无锚框设计等手段,实现超高检测精度,适合对精度要求极高的场景(如安防监控、人脸检索、刑侦识别)。

1. PyramidBox: A Context-Assisted Single Shot Face Detector

2. CenterFace: Joint Face Detection and Alignment Using Face as Point

  • 发表:arXiv 2019(无锚框人脸检测经典,高精度 + 实时)

  • 核心简介:将无锚框检测思想引入人脸检测,提出以人脸中心点为核心的检测框架,解决锚框带来的超参数敏感、密集人脸框重叠问题。将每个人脸表示为中心点,从中心点特征图上直接回归人脸框的宽高、关键点坐标,无需锚框匹配;设计多尺度中心点检测,适配不同尺度的人脸;融合人脸检测、关键点对齐多任务,模型结构简洁,精度媲美 PyramidBox,推理速度达GPU 端 200+ FPS。CenterFace 是无锚框人脸检测的经典基线,兼顾高精度和实时性,适合密集人脸、小人脸检测场景。

  • 论文 PDF:arXiv→https://arxiv.org/pdf/1911.03599.pdf

  • 代码地址:官方 PyTorch→https://github.com/Star-Clouds/CenterFace | C++/OpenCV 部署→https://github.com/jiangxinyang227/CenterFace-CPP

3. MaskedFace-RCNN: Face Detection and Segmentation for Masked Faces

  • 发表:ICIP 2020(口罩遮挡人脸检测标杆,疫情场景专用)

  • 核心简介:专为口罩遮挡人脸设计的高精度检测器,解决传统模型对口罩人脸漏检、定位不准的问题。基于 Mask R-CNN 两阶段框架,增加口罩分割分支,联合训练人脸检测、口罩分割、关键点回归三任务;通过口罩分割结果增强遮挡人脸的特征表达,让模型聚焦于未被遮挡的区域(眼睛、额头);重新设计锚框和样本分配策略,适配口罩人脸的框形变化。MaskedFace-RCNN 在口罩人脸数据集上检测精度达98%+是疫情场景下人脸检测的首选模型,也为重度遮挡人脸检测提供了思路。

  • 论文 PDF:ICIP 官方→https://ieeexplore.ieee.org/document/9190709 | arXiv→https://arxiv.org/pdf/2007.09082.pdf

  • 代码地址:官方 PyTorch→https://github.com/aqeelanwar/MaskedFace-RCNN | 轻量版→https://github.com/akashmalla/Masked-Face-Detection

4. FAN: Face Attention Network for Facial Landmark Detection and Face Detection

五、人脸检测必备工具库、数据集与评估指标

1. 主流人脸检测工具库(封装经典模型,开箱即用,支持训练 / 部署)

工具库

核心优势

代码地址

InsightFace

国内主流人脸算法库,集成 RetinaFace、PyramidBox 等 SOTA 模型,支持检测 / 对齐 / 识别一体化

https://github.com/deepinsight/insightface

OpenCV

轻量易用,内置 Viola-Jones、MTCNN 等基础检测器,适合快速开发和轻量部署

https://github.com/opencv/opencv

Dlib

C++/Python 跨平台,内置 HOG+SVM 人脸检测器和关键点检测器,精度高、鲁棒性强

https://github.com/davisking/dlib

PaddleFace

百度飞桨人脸库,集成轻量 / 高精度人脸检测模型,支持移动端部署

https://github.com/PaddlePaddle/PaddleFace

2. 经典人脸检测数据集(权威基准,覆盖通用 / 复杂场景)

数据集

核心特点

样本量 / 人脸数

官网地址

WIDER FACE

人脸检测最权威数据集,覆盖野生场景,分 Easy/Medium/Hard 子集(Hard 含遮挡 / 小人脸 / 大姿态)

32k 张图 / 393k 个人脸

http://shuoyang1213.me/WIDERFACE/

FDDB

经典人脸检测数据集,以侧脸 / 模糊人脸为主,侧重姿态鲁棒性评估

2k 张图 / 5k 个人脸

https://vis-www.cs.umass.edu/fddb/

AFLW

大角度姿态人脸数据集,覆盖 0°~180° 人脸姿态,适合姿态鲁棒性训练

25k 张图 / 25k 个人脸

https://www.tugraz.at/institute/icg/research/team-bischof/lrs/downloads/aflw/

MAFA

口罩遮挡人脸数据集,含各种口罩遮挡类型(半遮 / 全遮),适合遮挡人脸检测

30k 张图 / 35k 个人脸

https://www.escience.cn/people/xiangyuzhu/MAFA.html

3. 核心评估指标(人脸检测专用,区别于通用目标检测)

  • AP(Average Precision):通用检测指标,衡量精度 - 召回率曲线下面积,WIDER FACE 主指标为AP@0.5(IOU 阈值 0.5);

  • Recall(召回率):衡量模型对人脸的检出能力,重点关注 Hard 子集的召回率(小人脸 / 遮挡人脸);

  • FPS(帧 / 秒):衡量推理速度,分CPU/FPGA/ 移动端 GPU不同硬件的速度;

  • 关键点检测误差:对多任务模型,用归一化均方误差(NME) 评估关键点对齐精度。

2.3  图像分割问题

2.3.1 语义分割

2.3.2 实例分割

图像分割论文和代码(语义分割、实例分割、全景分割、轻量化 / 实时分割)

一、语义分割(Semantic Segmentation)

核心任务

将图像像素划分为语义类别(如人、车、树、道路),不区分同一类别的不同实例(如所有行人都标为 “人”),是图像分割的基础任务。

1. FCN: Fully Convolutional Networks for Semantic Segmentation

2. U-Net: Convolutional Networks for Biomedical Image Segmentation

3. DeepLab v3+: Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

4. HRNet-Semantic-Segmentation

二、实例分割(Instance Segmentation)

核心任务

不仅划分语义类别,还区分同一类别的不同实例(如区分图像中第 1 个、第 2 个行人),融合 “目标检测 + 语义分割”,是比语义分割更精细的任务。

1. Mask R-CNN

2. YOLACT: Real-Time Instance Segmentation

3. SOLO: Segmenting Objects by Locations

  • 发表:ECCV 2020(创新单阶段实例分割,无锚框设计)

  • 核心简介:提出无锚框(Anchor-Free)的实例分割新思路,将实例分割建模为“位置分类 + 语义分割”。根据目标的空间位置将图像划分为网格,每个网格负责分割一个实例,通过预测目标的类别掩码和中心区域,直接生成实例掩码,无需目标检测框的辅助。SOLO 简化了实例分割流程,精度媲美 Mask R-CNN,速度优于 YOLACT,后续改进版 SOLOv2 成为单阶段实例分割的 SOTA。

  • 论文 PDF:SOLO→https://arxiv.org/pdf/1912.04488.pdf | SOLOv2→https://arxiv.org/pdf/2003.10152.pdf

  • 代码地址:官方 MMDetection→https://github.com/WXinlong/SOLO | 独立实现→https://github.com/aim-uofa/AdelaiDet

三、全景分割(Panoptic Segmentation)

核心任务

融合语义分割(处理 stuff 类别,如道路、天空,无实例区分)+ 实例分割(处理 thing 类别,如人、车,有实例区分),对图像中所有像素进行类别 + 实例的统一标注,是图像分割的高级任务,更贴近人类视觉的完整理解。

1. Panoptic FPN

2. Mask2Former: Masked-attention Mask Transformer for Universal Image Segmentation

四、轻量化 / 实时图像分割(移动端 / 边缘端)

核心需求

针对手机、嵌入式设备、自动驾驶等实时推理场景,在保证一定精度的前提下,大幅减少模型参数量和计算量,实现高帧率(20+ FPS)分割。

1. MobileNetV3-Segmentation

2. Fast-SCNN: Fast Semantic Segmentation Network

  • 发表:ICCV 2019 Workshop(专为实时分割设计的轻量架构)

  • 核心简介:提出轻量级 Encoder-Decoder 架构,针对实时分割做极致优化。Encoder 采用快速空间金字塔池化(Fast SPP)和深度可分离卷积,大幅减少计算量;Decoder 采用轻量级上采样融合,仅恢复关键细节特征。模型参数量仅1.2M,在 1080P 图像上推理速度达123 FPS,精度略低于 MobileNetV3 但速度更优,适配对帧率要求极高的边缘端场景(如无人机、实时监控)。

  • 论文 PDF:arXiv→https://arxiv.org/pdf/1902.04502.pdf

  • 代码地址:官方 PyTorch→https://github.com/Tramac/Fast-SCNN.pytorch | TensorFlow→https://github.com/tensorflow/models/tree/master/research/deeplab

3. PP-LiteSeg: A Superior Real-Time Semantic Segmentation Model

  • 发表:NeurIPS 2022(工业界实时分割 SOTA,百度飞桨)

  • 核心简介:专为工业界实时场景设计,融合轻量级骨干、多尺度特征融合、高效解码三大优化。采用 PP-LCNet 轻量化骨干,引入轻量级金字塔融合模块(LFPM)实现多尺度特征提取,设计对称解码结构快速恢复空间细节,同时支持动态调整模型尺度(从超轻量到高精度)。模型在移动端(麒麟 990)实现40+ FPS,精度超越 MobileNetV3、Fast-SCNN,成为工业界实时语义分割的首选。

  • 论文 PDF:arXiv→https://arxiv.org/pdf/2204.02681.pdf

  • 代码地址:官方 PaddlePaddle→https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.6/configs/pp_liteseg | PyTorch 复现→https://github.com/whai362/PP-LiteSeg

五、图像分割必备工具库与数据集

1. 主流分割工具库(封装经典 / 最新模型,开箱即用)

2. 经典数据集(覆盖通用 / 专用场景)

任务类型

数据集名称

适用场景

官网地址

语义分割

PASCAL VOC 2012

通用场景(20 类)

https://host.robots.ox.ac.uk/pascal/VOC/

语义分割

Cityscapes

城市场景(道路、车辆、行人等)

https://www.cityscapes-dataset.com/

语义分割

ADE20K

室内场景(150 类)

https://groups.csail.mit.edu/vision/datasets/ADE20K/

实例分割

COCO Instance Segmentation

通用场景(80 类)

https://cocodataset.org/#instance-seg

全景分割

COCO Panoptic Segmentation

通用场景

https://cocodataset.org/#panoptic-seg

医学分割

BraTS

脑肿瘤分割

https://www.med.upenn.edu/cbica/brats2024/

遥感分割

DeepGlobe

遥感图像分割

https://competitions.codalab.org/competitions/18468

2.4  目标追踪问题

目标追踪相关论文和代码(单目标跟踪(SOT)、多目标跟踪(MOT)、联合检测跟踪(JDE))

一、单目标跟踪(SOT):跟踪视频中单个指定目标

1. MOSSE: Visual Object Tracking using Adaptive Correlation Filters

2. KCF: High-Speed Tracking with Kernelized Correlation Filters

  • 发表:TPAMI 2015

  • 核心简介:在 MOSSE 基础上引入核技巧,将线性相关滤波扩展到非线性空间,大幅提升跟踪精度;同时用循环矩阵采样减少计算量,速度保持300+ FPS,成为实时单目标跟踪的经典基线,被 OpenCV 内置为标准跟踪器。

  • 论文https://arxiv.org/pdf/1404.7584.pdf

  • 代码https://github.com/joaofaro/KCFcpp

3. SiamRPN: High Performance Visual Tracking with Siamese Region Proposal Network

  • 发表:CVPR 2018

  • 核心简介孪生网络 + 区域提议(RPN)的里程碑,将跟踪建模为模板 - 搜索区域匹配 + 目标框回归。用孪生网络提取目标与搜索区域特征,RPN 生成候选框并回归精确位置,首次在单目标跟踪中实现端到端训练 + 实时 + 高精度,开启孪生跟踪时代。

  • 论文https://arxiv.org/pdf/1802.06319.pdf

  • 代码https://github.com/huanglianghua/siamrpn-pytorch

4. SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks

  • 发表:CVPR 2019

  • 核心简介:解决 SiamRPN 无法使用深层网络(如 ResNet-50)的问题,提出深度孪生网络 + 多层特征融合,引入深度互相关提升特征匹配能力,在 OTB、VOT 等数据集上刷新 SOTA,成为孪生跟踪的主流架构

  • 论文https://arxiv.org/pdf/1812.11703.pdf

  • 代码https://github.com/STVIR/pysot

5. SiamMask: A Framework for Fast Online Object Tracking and Segmentation


二、多目标跟踪(MOT):同时跟踪视频中多个目标(行人 / 车辆等)

1. SORT: Simple Online and Realtime Tracking

  • 发表:ICIP 2016

  • 核心简介轻量多目标跟踪的极简基线,仅用卡尔曼滤波 + 匈牙利算法实现跟踪。卡尔曼滤波预测目标位置,匈牙利算法做检测框与跟踪目标的 IOU 匹配,无外观特征、代码仅 300 行,速度达260 FPS,成为后续 DeepSORT、ByteTrack 等的基础框架。

  • 论文https://arxiv.org/pdf/1602.00763.pdf

  • 代码https://github.com/abewley/sort

2. DeepSORT: Simple Online and Realtime Tracking with a Deep Association Metric

  • 发表:ICIP 2017

  • 核心简介:在 SORT 基础上加入深度表观特征,解决 SORT 仅靠 IOU 匹配易 ID 切换的问题。用预训练 CNN 提取目标外观特征,结合马氏距离 + 余弦距离做数据关联,大幅提升ID 保持能力,成为工业界最常用的多目标跟踪器

  • 论文https://arxiv.org/pdf/1703.07402.pdf

  • 代码https://github.com/nwojke/deep_sort

3. ByteTrack: Multi-Object Tracking by Associating Every Detection Box

  • 发表:ECCV 2022

  • 核心简介突破传统 “只保留高置信度检测” 的局限,提出关联所有检测框的策略。对低置信度检测框,通过与跟踪轨迹匹配恢复真实目标、过滤背景,解决遮挡导致的轨迹断裂问题;在 MOT17/20 上实现80+ MOTA、30 FPS,成为当前MOT 的 SOTA 基线

  • 论文https://arxiv.org/pdf/2110.06864.pdf

  • 代码https://github.com/ifzhang/ByteTrack

4. BoT-SORT: Robust Associations Multi-Pedestrian Tracking

  • 发表:arXiv 2022

  • 核心简介:优化 DeepSORT 的关联策略,用IoU + 外观特征 + 运动信息的加权匹配,引入轨迹平滑相机运动补偿,提升复杂场景(拥挤 / 遮挡)下的鲁棒性;速度与精度均衡,适配自动驾驶、视频监控等场景。

  • 论文https://arxiv.org/pdf/2206.14651.pdf

  • 代码https://github.com/NirAharon/BoT-SORT


三、联合检测与跟踪(JDE):单网络同时完成检测 + 跟踪,端到端推理

1. JDE: Towards Real-Time Multi-Object Tracking

2. FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking

  • 发表:ECCV 2020

  • 核心简介:解决 JDE 中检测与重识别(ReID)特征冲突的问题,提出公平特征学习。用共享骨干 + 分离检测 / ReID 头,平衡检测定位精度与 ID 区分能力,在 MOT17 上实现73.7 MOTA、30 FPS,成为 JDE 的经典改进模型。

  • 论文https://arxiv.org/pdf/2004.01888.pdf

  • 代码https://github.com/ifzhang/FairMOT

3. TransTrack: Tracking with Transformers

  • 发表:CVPR 2022

  • 核心简介Transformer 首次应用于多目标跟踪,用 Transformer 建模帧间目标关联,无需显式数据关联算法。将跟踪建模为目标查询匹配,直接输出目标 ID 与位置,简化流程,在复杂场景下 ID 保持能力更强。

  • 论文https://arxiv.org/pdf/2012.15460.pdf

  • 代码https://github.com/PeizeSun/TransTrack

四、工具库与数据集

1. 跟踪工具库

2. 常用数据集

  • SOT:OTB100、VOT2023、LaSOT、GOT-10k

  • MOT:MOT17、MOT20、CrowdHuman、UA-DETRAC

2.5 姿态估计问题

人体姿态识别相关论文和代码(2D 自下而上→2D 自上而下→3D 姿态识别→实时 / 轻量化)

一、2D 人体姿态识别(自下而上)

1. OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

2. Associative Embedding: End-to-End Learning for Joint Detection and Grouping

  • 发表:NIPS 2017

  • 核心简介:提出关联嵌入(Associative Embedding) 新思路,解决自下而上方法中 “关键点检测与人体分组分离” 的问题,实现端到端的多人姿态识别。为每个检测到的人体关键点分配一个嵌入向量,同一人体的关键点向量相似度高,不同人体的向量相似度低,通过向量聚类自动完成关键点分组;无需额外的分组后处理,简化了模型流程,同时提升了推理速度,该嵌入思想被后续众多自下而上模型借鉴。

  • PDF 下载:https://arxiv.org/pdf/1611.05424.pdf

  • 代码地址:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch(集成在 HRNet 官方库中)

二、2D 人体姿态识别(自上而下)

1. Simple Baselines for Human Pose Estimation and Tracking

  • 发表:ECCV 2018

  • 核心简介:打破当时 “姿态识别模型必须设计复杂模块” 的误区,提出极简的自上而下基线模型,以 ResNet 为骨干网络,搭配反卷积层做上采样恢复关键点热力图,无任何复杂的定制化模块。实验证明该简单架构在 COCO、MPII 数据集上性能媲美当时的复杂模型,成为后续所有自上而下姿态模型的基准框架;同时提出姿态跟踪的简单思路,实现视频中人体姿态的连续估计,为后续模型改进提供了清晰的对比基线。

  • PDF 下载:https://arxiv.org/pdf/1804.06208.pdf

  • 代码地址:https://github.com/microsoft/human-pose-estimation.pytorch

2. Deep High-Resolution Representation Learning for Human Pose Estimation (HRNet)

3. HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation

  • 发表:CVPR 2020

  • 核心简介:将 HRNet 的高分辨率特征思想适配到自下而上方法,解决自下而上模型对不同尺度人体(如大 / 小人)检测精度低的问题。提出尺度感知的特征表示,在 HRNet 基础上增加多尺度特征融合模块,同时设计自适应的关键点检测头,针对不同尺度的人体特征做针对性检测;相比 OpenPose,在多人、多尺度场景下精度大幅提升,成为自下而上 2D 姿态识别的 SOTA 模型。

  • PDF 下载:https://arxiv.org/pdf/1908.10357.pdf

  • 代码地址:https://github.com/HRNet/HigherHRNet-Human-Pose-Estimation

4. ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

  • 发表:NeurIPS 2022

  • 核心简介:首次将 Vision Transformer(ViT)成功应用于人体姿态识别,打破此前姿态模型依赖 CNN 骨干的局限。提出适配姿态任务的 ViT 架构,通过调整 patch 大小、增加特征上采样模块,解决 ViT 对精细空间信息捕捉不足的问题;同时设计简单的热力图解码头,在 COCO、MPII 等数据集上超越当时所有 CNN 基姿态模型,为姿态识别开辟了Transformer 基模型的新方向,后续众多 ViT 姿态模型均基于其改进。

  • PDF 下载:https://arxiv.org/pdf/2204.12484.pdf

  • 代码地址:https://github.com/ViTAE-Transformer/ViTPose

三、3D 人体姿态识别

1. 3D Human Pose Estimation in Video with Temporal Convolutions and Semi-Supervised Training

  • 发表:CVPR 2019

  • 核心简介:针对单张图片 3D 姿态估计易受视角、遮挡影响的问题,提出基于视频的 3D 姿态估计模型(VideoPose3D)。采用 “2D 检测→3D 提升” 的两阶段思路,先通过 2D 姿态模型提取视频中每一帧的 2D 关键点,再利用时序卷积网络(TCN) 建模视频帧间的时间关联,从时序特征中恢复 3D 姿态;同时引入半监督训练,利用未标注的视频数据提升模型泛化能力,在 Human3.6M、MPI-INF-3DHP 数据集上实现 SOTA,成为视频 3D 姿态估计的经典基线。

  • PDF 下载:https://arxiv.org/pdf/1811.09313.pdf

  • 代码地址:https://github.com/facebookresearch/VideoPose3D

2. Simple Baselines for 3D Human Pose Estimation

  • 发表:ICCV 2019 Workshop

  • 核心简介:为 3D 姿态估计提供极简的单图基线模型,解决当时 3D 姿态模型架构复杂、难以复现的问题。采用 “2D 关键点特征→3D 坐标回归” 的直接思路,以 ResNet 提取 2D 关键点的空间特征,通过全连接层直接回归 3D 姿态坐标,无任何复杂的时序或几何约束模块;实验证明该简单模型在单图 3D 姿态估计任务上性能媲美复杂模型,成为单图 3D 姿态识别的基准框架,后续模型均以其为对比基线。

  • PDF 下载:https://arxiv.org/pdf/1905.05754.pdf

  • 代码地址:https://github.com/una-dinosauria/3d-pose-baseline

3. HMR: Human Mesh Recovery from a Single Image

  • 发表:ICCV 2019

  • 核心简介:突破传统 3D 姿态识别 “仅回归关键点坐标” 的局限,提出从单张图片恢复 3D 人体网格(Human Mesh Recovery) 的方法。将人体表示为参数化的 SMPL 网格模型,模型直接回归 SMPL 的形状、姿态参数,从而生成完整的 3D 人体网格,而非孤立的关键点;同时引入对抗训练提升网格的真实感,实现从 “关键点级” 到 “网格级” 的 3D 人体理解,成为 3D 人体网格恢复的开山之作。

  • PDF 下载:https://arxiv.org/pdf/1803.07887.pdf

  • 代码地址:https://github.com/akanazawa/hmr

4. PARE: Part Attention Regressor for 3D Human Body Estimation

  • 发表:CVPR 2021

  • 核心简介:针对 HMR 等模型在人体局部遮挡、复杂姿态下精度低的问题,提出基于部分注意力的 3D 人体网格回归模型(PARE)。引入部位注意力机制(Part Attention),让模型自动关注人体未被遮挡的部位,弱化遮挡部位的特征影响;同时设计多任务学习框架,联合回归 3D 关键点、人体网格和相机参数,提升模型的鲁棒性;在遮挡、复杂姿态场景下,网格恢复精度远超 HMR,成为当时 3D 人体网格估计的 SOTA 模型。

  • PDF 下载:https://arxiv.org/pdf/2011.08672.pdf

  • 代码地址:https://github.com/mkocabas/PARE

四、实时 / 轻量化人体姿态识别(移动端 / 边缘端)

1. Lite-HRNet: A Lightweight High-Resolution Network

  • 发表:CVPR 2021

  • 核心简介:针对 HRNet 参数量大、无法部署在移动端的问题,提出HRNet 的轻量化版本,在保留高分辨率特征思想的前提下,大幅减少参数量和计算量。通过深度可分离卷积替换 HRNet 中的标准卷积,同时设计轻量级的跨分辨率特征融合模块,在减少计算量的同时保留高分辨率特征的表达能力;相比 HRNet,参数量减少 80% 以上,推理速度提升 5 倍,在移动端实现高精度的实时 2D 姿态识别,成为边缘端姿态识别的主流骨干。

  • PDF 下载:https://arxiv.org/pdf/2104.06403.pdf

  • 代码地址:https://github.com/HRNet/Lite-HRNet

2. MobilePose: Real-Time Pose Estimation for Mobile Devices

  • 发表:arXiv 2018

  • 核心简介:首个专为移动端设计的实时姿态识别模型,解决传统姿态模型(如 OpenPose)计算量过大、无法在手机等嵌入式设备运行的问题。以轻量级的 MobileNet 为骨干网络,替换 OpenPose 中的 VGG 骨干,同时简化 PAF 特征提取模块,在保证基本识别精度的前提下,将模型参数量和计算量降至移动端可承受范围;支持 iOS/Android 端的实时推理,为移动端姿态识别的落地奠定基础。

  • PDF 下载:https://arxiv.org/pdf/1811.07872.pdf

  • 代码地址:https://github.com/CMU-Perceptual-Computing-Lab/mobilepose

3. YOLO-Pose: Enhancing YOLO for Multi Person Pose Estimation Using Object Keypoint Similarity Loss

  • 发表:CVPR 2022 Workshop

  • 核心简介:将 YOLO 的目标检测思想与姿态识别融合,提出一站式的实时多人姿态识别模型,解决传统自上而下方法 “检测 + 姿态” 两步推理速度慢的问题。在 YOLOv5 的基础上,增加关键点预测头,将人体检测和关键点回归融合在一个网络中,实现单阶段端到端的多人姿态估计;同时引入Object Keypoint Similarity (OKS) 损失,适配姿态任务的标签分布,相比 OpenPose 推理速度提升 10 倍以上,在桌面端 / 边缘端均能实现实时(30+FPS)多人姿态识别。

  • PDF 下载:https://arxiv.org/pdf/2204.06806.pdf

  • 代码地址:https://github.com/TexasInstruments/edgeai-yolov5/tree/pose

五、工具库与数据集

1. MMPose

2. Detectron2

3. 常用数据集


六、论文下载通用方法(免费)

1. arXiv(最常用)

2. CVF Open Access(CVPR/ICCV)

3. ECCV

  • 格式:https://www.ecva.net/papers/[会议]/papers/[论文名].pdf

4. NeurIPS

  • 格式:https://proceedings.neurips.cc/paper_files/paper/[年份]/hash/[哈希值]-Paper.pdf

5. PapersWithCode(一站式)

2.6 缺陷检测问题

目前的缺陷检测主要分为两大类:

  1. 有监督检测 (Supervised):需要大量缺陷样本标注,常用目标检测(YOLO系列)和分割网络。

  2. 无监督/半监督异常检测 (Unsupervised/Semi-supervised)当前研究热点。仅需正常样本训练,通过重构或特征分布来判断异常,解决工业界“缺陷样本少”的痛点。


一、核心开源资源库 (强烈推荐)

在深入研究具体算法前,建议先收藏以下汇总资源库,它们包含了绝大多数主流算法的论文和代码链接。


二、经典与SOTA无监督异常检测算法 (重点)

这类算法是目前工业界落地的首选,因为它们不需要大量的缺陷标注数据。

1. PatchCore (CVPR 2022) - 当前标杆

  • 论文标题Towards Total Recall in Industrial Anomaly Detection

  • 简介: 解决了“冷启动”问题(仅用正常样本训练)。核心思想是提取预训练网络(如ResNet)的局部Patch特征,构建一个记忆库 (Memory Bank)。测试时,通过计算查询图像特征与记忆库中正常特征的最近邻距离来判定异常。它在MVTec AD数据集上长期占据榜首,检测精度和定位能力极强。

  • 论文地址arXiv:2106.08265

  • 官方代码https://github.com/amazon-science/patchcore-inspection

  • PyTorch复现https://github.com/shanglianlm0525/CvPytorch (搜索PatchCore部分)

2. FastFlow (2021/2022)

  • 论文标题FastFlow: Unsupervised Anomaly Detection and Localization via 2D Normalizing Flows

  • 简介: 提出了一种基于2D归一化流 (Normalizing Flows) 的方法。它直接在2D特征图上建模正常数据的概率分布,避免了将特征展平为1D向量导致的空间信息丢失。推理速度快,能生成像素级的异常热力图。

  • 论文地址arXiv:2111.07677

  • 代码地址https://github.com/gathierry/FastFlow

3. SPADE (CVPR 2021)

  • 论文标题Sub-Image Anomaly Detection with Deep Pyramid Correspondences

  • 简介: 开创了像素级异常检测的先河。利用预训练网络提取多尺度特征,通过寻找测试图像子区域与正常样本库中对应区域的最佳匹配(Correspondence),计算重构误差或特征差异来定位异常。

  • 论文地址arXiv:2005.02357

  • 代码地址: 通常包含在Anomalib库中,或参考早期实现 https://github.com/xiahaifeng1995/PaDiM-SpaDE-FastFlow-Pytorch (非官方维护,仅供参考)

4. PaDiM (ICPR 2021)

  • 论文标题PaDiM: a Patch Distribution Modeling Framework for Anomaly Detection and Localization

  • 简介: 假设正常图像的Patch特征服从多元高斯分布。训练时估计每个空间位置的均值和协方差矩阵;测试时计算马氏距离。方法简单高效,是PatchCore出现之前的SOTA。

  • 论文地址arXiv:2011.08785

  • 代码地址https://github.com/gudovskiy/padim

5. CFA / Coupled-Hypersphere (2022)

  • 论文标题CFA: Coupled-Hypersphere-Based Feature Adaptation for Target-Oriented Anomaly Localization

  • 简介: 针对特征分布适配问题,提出耦合超球体模型,更好地适应目标域的特征分布,提升了对微小缺陷的定位能力。

  • 代码地址: 建议直接在 Anomalib 中调用,或搜索相关复现仓库。

6. WinClip (CVPR 2023) - CLIP赋能

  • 论文标题WinClip: Zero-/Few-Shot Anomaly Classification and Segmentation

  • 简介: 利用大模型 CLIP 的零样本/少样本能力。无需训练(或极少训练),通过滑动窗口裁剪图像并利用CLIP的文本 - 图像匹配能力来判断是否包含“缺陷”语义。适合跨品类快速部署。

  • 论文地址arXiv:2305.10760

  • 代码地址https://github.com/zqhang/WinClip (或搜索官方实现)


三、有监督检测算法 (传统深度学习)

如果您拥有充足的缺陷标注数据,以下目标检测和分割网络依然是工业界的主力:

表格

算法类型

代表模型

特点

代码/资源

目标检测

YOLO v8/v9/v10

速度极快,适合实时产线检测,对明显缺陷效果好。

Ultralytics YOLO

目标检测

Faster R-CNN

精度高,适合小目标缺陷,但速度较慢。

Detectron2

语义分割

U-Net / DeepLabV3+

像素级分割,能精确勾勒缺陷形状。

MMSegmentation

实例分割

Mask R-CNN

同时完成检测与精细分割。

Detectron2


四、常用数据集

研究和测试算法通常使用以下公开数据集:

  1. MVTec AD (Most Popular): 工业异常检测的基准数据集,包含15个类别(地毯、螺丝、胶囊等),涵盖多种缺陷类型。

  2. VisA: 包含更多复杂物体和多尺度缺陷的数据集。

  3. Neu-Defect / Steel Defect: 针对特定行业(如钢材表面)的数据集,常在Kaggle或特定论文附录中找到。

五、总结与建议

  • 入门首选: 直接运行 Anomalib 库,它内置了PatchCore, FastFlow, PaDiM等算法,文档齐全,能快速复现SOTA结果。

  • 高精度需求: 优先尝试 PatchCore 或 WinClip (如果有预训练大模型资源)。

  • 实时性需求: 考虑 FastFlow 或有监督的 YOLO 系列(如果有标注数据)。

  • 最新趋势: 关注基于 Diffusion Model (扩散模型) 和 Vision Transformer (ViT) 的异常检测方法(如DiAD, SimpleNet等),这些是2023-2025年的研究前沿。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐