【计算机视觉】【聚类】DeepCluster：用于视觉特征无监督学习的深度聚类算法

BQW_

8364人浏览 · 2022-03-21 22:25:25

BQW_ · 2022-03-21 22:25:25 发布

用于视觉特征无监督学习的深度聚类 《Deep Clustering for Unsupervised Learning of Visual Features》

论文地址：https://arxiv.org/pdf/1807.05520.pdf

相关博客：
【自然语言处理】【聚类】基于神经网络的聚类算法DEC
【自然语言处理】【聚类】基于对比学习的聚类算法SCCL
【自然语言处理】【聚类】DCSC：利用基于对比学习的半监督聚类算法进行意图挖掘
 【自然语言处理】【聚类】DeepAligned：使用深度对齐聚类发现新意图
 【自然语言处理】【聚类】CDAC+：通过深度自适应聚类发现新意图
 【计算机视觉】【聚类】DeepCluster：用于视觉特征无监督学习的深度聚类算法
 【计算机视觉】【聚类】SwAV：基于对比簇分配的无监督视觉特征学习
 【计算机视觉】【聚类】CC：对比聚类
 【计算机视觉】【聚类】SeLa：同时进行聚类和表示学习的自标注算法
 【自然语言处理】【聚类】ECIC：通过迭代分类增强短文本聚类
 【自然语言处理】【聚类】TELL：可解释神经聚类

一、简介

预训练卷积神经网络已经成为许多计算机视觉的基础部件，其能够产生良好的通用特征来改善模型在有限训练集上的泛化能力。 $\text{ImageNet}$ 是一个大规模的全监督数据集，用于卷积神经网络的预训练。然而，一些研究表明在 $\text{ImageNet}$ 上的state-of-the-art模型被极大的低估，基本上没有什么问题未被解决。以今天的标准来看 $\text{ImageNet}$ 的规模相对较小，仅包含了一百万张特定领域的图片。一个天然的方向是构建一个更大且更多样的数据集，但是需要大量的人工标注。因此，需要一个能够在互联网规模数据集上进行无监督训练的方法。

无监督学习已经被广泛的研究，且聚类、降维或者密度估计等算法也经常被应用于计算机视觉。一些研究已经证明，可以将基于密度估计的方法或者降维方法应用在深度模型上，并获得良好的视觉通用特征。尽管聚类算法在图像分类任务上取得了初步的成功，但还没有人在卷积神经网络上进行大规模端到端训练。一个主要的问题是，聚类算法是为固定特征上的线性模型设计的，很难在聚类的同时学习这些特征。例如，使用 $\text{K-Means}$ 来学习卷积神经网络将会导致平凡解，即特征全为0。

本文提出了一种用于大规模、端到端训练卷积神经网络的新颖聚类算法。使用这个聚类框架能够获取更好的通用视觉特征。整个方法如图1所示，其会在图像聚类和使用卷积神经网络预测簇分配间交替进行来更新参数。简单起见，本文仅专注研究 $\text{K-Means}$ ，但其他聚类方法也可以使用。尽管方法简单，本文的方法在 $\text{ImageNet}$ 分类和迁移任务上都比先前的无监督方法更好。

最后，本文通过修改实验中的训练集和网络结构等协议来验证整个框架的鲁棒性。实验结果显示，本文的方法对网络结构是具有鲁棒性的。

二、监督训练

现代计算机视觉都是基于统计学习的方法，需要好的图像特征。因此，卷积神经网络是将原始图像映射成固定维度向量的流行选择。定义 $f_\theta$ 为卷积神经网络映射， $\theta$ 是模型参数集合。本文应用 $f_\theta$ 将图像映射成特征向量。给定一个大小为 $N$ 的图像训练集 $X=\{x_1,x_2,\dots,x_N\}$ ，期望寻找到最优参数 $\theta^*$ ，使 $f_{\theta^*}$ 能够产生良好的通用特征。

每个图片 $x_n$ 关联一个介于 ${0,1\}^k$ 的标签 $y_n$ 。通常来说，会使用监督学习的方式来预测图片属于预定义 $k$ 个类别中的某一类别，从而获得最优参数 $\theta^*$ 。在特征映射函数 $f_\theta(x_n)$ 的基础上添加一个参数化分类器 $g_W$ 来预测正确标签。其中，分类器参数 $W$ 和映射函数参数 $\theta$ 通过下面的损失函数来优化
$\mathop{\text{min}}_{\theta,W}\frac{1}{N}\sum_{n=1}^N\mathcal{l}(g_W(f_\theta(x_n)),y_n) \tag{1}$
其中， $l$ 是多项式 $\text{logistic}$ 损失函数。

三、通过聚类进行无监督学习

不进行任何学习，直接从高斯分布中采样 $\theta$ ， $f_\theta$ 并不能产生良好的特征。然而，这些随机特征在标准的迁移任务中高于平均水平。例如，在一个随机初始化 $\text{AlexNet}$ 后拼接多层感知机能够在 $\text{ImageNet}$ 上实现12%的准确率。随机卷积神经网络的良好表现与卷积结构密切相关，因为其对输入信号有很强的先验。本文的想法是利用弱监督信号来引导卷积神经网络的判别能力。因此，本方法对卷积神经网络的输出进行聚类，然后使用聚类的簇分配来优化等式(1)。

研究表明聚类算法的选择并不关键。因此，本文选择标准聚类算法 $\text{K-Means}$ 。本文使用 $\text{K-Means}$ 聚类卷积神经网络的输出特征 $f_\theta(x_n)$ 。更准确的说，通过求解下面的公式来联合学习簇中心矩阵 $C\in\mathbb{R}^{d\times k}$ ，每个图片 $n$ 会被分配簇 $y_n$ ：
$\mathop{\text{min}}_{C\in\mathbb{R}^{d\times k}}\frac{1}{N}\sum_{n=1}^N\mathop{\text{min}}_{y_n\in\{0,1\}^k}\parallel f_\theta(x_n)-Cy_n\parallel_2^2\;\text{such that}\quad y_n^\top1_k=1\tag{2}$
求解上面的公式能够得到最优簇分配 $(y_n^*)_{n\leq N}$ 和簇中心矩阵 $C^*$ 。这个簇分配后续被用作伪标签，而簇中心矩阵并没有被使用。

总体来说， $\text{DeepCluster}$ 交替使用等式 $(2)$ 进行聚类来产生伪标签，并使用等式 $(1)$ 来预测伪标签，用于更新卷积神经网络的参数。但是，这种交替可能会导致平凡解。

四、避免平凡解

平凡解不仅出现在无监督神经网络学习中，而是对于任何联合学习判别分类器和标签的方法。即使只使用线性模型，判别聚类的方法也存在这个问题。常见的解决方案是，对每个簇中的最小样本数量进行限制和惩罚。但是，这种方法需要在整个数据集上计算，不适用于大规模数据集上的卷积神经网络。本小节会给出一个简单且可伸缩的变通方法。

1. 空簇

对于一个学习类别间决策边界的模型，一个最优的决策边界是将所有输入分配至单个簇中。导致这种问题的原因是，缺乏一个机制来防止空簇的出现。一种常见的技巧是在 $\text{K-Means}$ 阶段自动重新分配簇。具体来说，当一个簇为空时，随机选择一个非空簇，并将簇中心添加一个随机扰动作为空簇的新中心。然后，将属于非空簇的样本重新分配至两个簇。

2. 参数平凡化

在一个极端化的场景中，除一个簇外，所有簇都只有一个实例。此时，最小化等式 $(1)$ 将导致参数平凡化，即卷积神经网络会无视输入并产生相同的输出。这个问题在类别高度不平衡的监督图像分类中也会出现。解决这个问题的策略是基于类别的均匀分配进行图像采样。这相当于将等式 $(1)$ 中某个输入对损失函数的贡献权重设置为其分配簇尺寸大小的倒数。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git