Reconstruction by inpainting for visual anomaly detection阅读笔记

Abstract

视觉异常检测,解决图像中偏离正常外观的区域分类和定位问题。

一种流行的方法是在无异常图像上训练自动编码器,并通过计算输入图像和重建图像之间的差异来执行异常检测。这种方法假设自动编码器将无法准确重建异常区域。

但在实际中,神经网络拟合能力太强,导致异常图像也能够被重建,从而降低了检测能力。

如果Autoencoder看不到异常像素,那么精确重建的可能性就小得多。因此,我们将异常检测视为一个**自我监督的修复重建问题。**我们的方法(RIAD)随机去除部分图像区域,并从部分修复中重建图像,从而解决了自动编码方法的缺点。

1 Introduction

异常检测一个常见的假设是:异常是罕见的和多样的。所以导致收集和标记足够的数据集来训练分类模型,从而分类出异常,是不可能的。所以,生成方法是首选。

方法试图捕捉正常数据的分布,并将异常点确定为异常值。

最近的异常检测方法集中于通过自动编码器网络经由图像重建来学习无异常数据的分布[1,2,3]。基于重建误差为每个图像分配异常分数,其中假设自动编码器将不能重建在训练期间未观察到的图像模式。

但是由于自动编码器的高泛化能力,异常通常以高保真度重建[4,5]。

[4]C. Huang, J. Cao, F. Ye, M. Li, Y . Zhang, C. Lu, Inverse-
transform autoencoder for anomaly detection, arXiv preprint arXiv:1911.10676.

[5] Memorizing normality to detect anomaly: Memory-augmented deep autoencoder for unsupervised anomaly detection, in: Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 1705–1714.

这违反了核心假设,并且使得仅基于重建误差就无法区分异常区域和无异常区域

最近提出基于几何变换为托词的自监督学习方法。假设异常图像的几何变换精度会下降,则可以从变换预测的质量中隐含地检测到异常的存在。但是在几何变换不变的图像上表现不佳,如旋转不变的纹理或者对称现象。

提出新的异常检测方法,不会受Autoencoder过强的泛化能力影响,也不会收到几何变换不变性的影响。

主要贡献是,将异常检测作为一个修复重建的问题。
在这里插入图片描述

与自动编码器不同的是,局部区域是通过仅调整其紧邻区域来重建的,不包括正在重建的区域中的输入像素。

第二个贡献,我们提出了一个基于梯度相似度[9]的损失函数以及一个异常分数估计函数。

[9] W. Xue, L. Zhang, X. Mou, A. C. Bovik, Gradient magnitude similarity deviation: A highly efficient perceptual image quality index, IEEE Transactions on Image Processing 23 (2) (2013) 684–695.

2 Related Work

最近的一些异常检测方法。GAN通过对抗性训练自编码器,用来重建输入图像,用重建误差来确定图像是否异常。

GANomaly[1]的异常分数被定义为原始图像和重建图像的潜在空间表示的差异。

[2]中,对[1]进行拓展,在对抗式自编码器中加入条约连接,将异常分数计算改变为基于重建误差。Ano-GAN [11]训练DCGAN [15]来模拟输入图像分布。

One-class学习方法也被认为是异常检测方法。Deep-SVDD训练神经网络将图像映射到最小体积的超球体,通过超球中心的距离为每个图像分配异常分数,来执行异常检测。

还可以被公式化为借口任务,可以使神经网络进行自监督学习。例如,变换预测,跨通道自编码或者聚类。

自监督几何变化预测方法已经被用于异常检测任务[6,7],但是对于几何变换不变的对象使不鲁棒的。

3 Reconstruction-by-inpainting anomaly detection

我们的方法是基于一个编码器-解码器网络训练图像修复无异常样本。

首先,输入图像像素的一部分被去除,训练网络,通过语义信息来替换丢失的信息。根据重建质量最差的区域,为每个图像分配一个异常分数。

3.1 Reconstruction-by-inpainting formulation

首先将输入图像分割成大小为 K K K的正方形区域来一出一组像素,从而改变输入图像。

每个图片被分解成为 H k × W k \frac{H}{k} \times \frac{W} k kH×kW,其中 W , H W,H W,H是图像的宽和高。每个网格元素都是 k × k k×k k×k像素的正方形。调整图像大小,使其能被 k k k整除。

N = H k × W k N=\frac{H}{k} \times \frac{W} k N=kH×kW是所有网格元素的数量。

mask掉 N n \frac N n nN 个patch,重复n次得到n张mask后的“残缺图”,这n张“残缺图”中被mask掉的patch交集为空,即保证每个patch都能被mask,再在后续处理中被重建。

3.2 Reconstruction network architecture

U-Net[27]网络结构

[27]U-net: Convolutional networks for biomedical image segmentation, in: International Conference on Medical image computing and computer-assisted intervention, Springer, 2015, pp. 234–241.

训练网络通常使用每像素的 L 2 L_2 L2损失,然而这种损失假设像素之间是独立的,但通常不独立。

在[9]的基础上,提出了一种多尺度梯度幅度相似性损失,并使用了结构相似性指数(SSIM) [28]损失。

3.3 Multi-scale training
3.4 Anomaly Detection

(待续……)

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐