【自然语言处理】【聚类】基于神经网络的聚类算法DEC

BQW_

6202人浏览 · 2021-09-07 22:19:44

BQW_ · 2021-09-07 22:19:44 发布

原文链接：Unsupervised Deep Embedding for Clustering Analysis

基于神经网络的具体算法DEC

相关博客：
【自然语言处理】【聚类】基于神经网络的聚类算法DEC
【自然语言处理】【聚类】基于对比学习的聚类算法SCCL
【自然语言处理】【聚类】DCSC：利用基于对比学习的半监督聚类算法进行意图挖掘
 【自然语言处理】【聚类】DeepAligned：使用深度对齐聚类发现新意图
 【自然语言处理】【聚类】CDAC+：通过深度自适应聚类发现新意图
 【计算机视觉】【聚类】DeepCluster：用于视觉特征无监督学习的深度聚类算法
 【计算机视觉】【聚类】SwAV：基于对比簇分配的无监督视觉特征学习
 【计算机视觉】【聚类】CC：对比聚类
 【计算机视觉】【聚类】SeLa：同时进行聚类和表示学习的自标注算法
 【自然语言处理】【聚类】ECIC：通过迭代分类增强短文本聚类
 【自然语言处理】【聚类】TELL：可解释神经聚类

一、简介

聚类特别依赖特征空间的选择；
先前很少有研究来解决用于聚类的特征空间学习问题；
本文提出了一种称为 $\text{Deep Embedded Clustering(DEC)}$ 的聚类方法，该方法通过迭代方式来同时学习特征空间(向量表示)并完成聚类；

二、聚类算法DEC

将 $n$ 个点 $\{x_i\in X\}_{i=1}^n$ 聚类至 $k$ 个簇，每个簇均有一个质心 $u_j,j=1,\dots,k$ 。本文不直接在数据空间 $X$ 上聚类，而是通过非线性映射 $f_\theta:X\rightarrow Z$ ，将数据空间 $X$ 映射至特征空间 $Z$ ，其中 $\theta$ 是可学习参数。为了避免维度灾难， $Z$ 的维度远远小于 $X$ 。至于非线性映射 $f_\theta$ ，很自然选择神经网络来进行近似。

算法 $\text{DEC}$ 的两个目标：

在特征空间 $Z$ 中学习 $k$ 个簇心 $\{u_j\in Z\}_{j=1}^k$ (聚类)；
学习将数据映射至特征空间 $Z$ 的网络参数 $\theta$ ；

1. 基于KL散度的聚类

给定一个初始化的非线性映射 $f_\theta$ 和初始化簇中心 ${u_j\}_{j=1}^k$ 。(如何初始化会在下一小节介绍)

$\text{DEC}$ 使用无监督交替两阶段方法来改善聚类效果，

第一阶段：计算嵌入节点和簇中心的软分配；
第二阶段：更新映射 $f_\theta$ ，并使用辅助目标分布从当前高置信度分配中细化簇中心；

1.1 计算软分配

这里使用学习 $t$ 分布作为衡量嵌入节点与簇中心的相似度
$q_{ij}=\frac{(1+||z_i-u_i||^2/\alpha)^{-\frac{\alpha+1}{2}}}{\sum_{j'}(1+||z_i-u_{j'}||^2/\alpha)^{-\frac{\alpha+1}{2}}}$
其中， $z_i=f_\theta(x_i)\in Z$ 是 $x_i \in X$ 嵌入后的向量； $\alpha$ 是学生 $t$ 分布的自由度(论文设 $\alpha=1$ )； $q_{ij}$ 被认为是分配样本 $i$ 至簇 $j$ 的概率；

1.2 KL散度最小化

该阶段通过辅助分布来进一步使各个簇更加的内聚。具体来说，模型通过将上面得到的软分配与目标分布来训练模型。为了实现这个目标，这里定义了一个基于KL散度的损失函数来衡量软分配 $q_i$ 与辅助分布 $p_j$ 间的差距
$\text{L=KL(P||Q)}=\sum_i\sum_jp_{ij}log\frac{p_{ij}}{q_{ij}}$
其中， $q_{ij}$ 就是上面得到的软分配， $p_{ij}$ 则是一个目标分布。

下面会介绍这个目标分布怎么来的。

对于本文的聚类算法，目标分布 $P$ 的选择非常重要。具体来说，目标分布应该具有如下性质：

能够改善聚类中簇的内聚程度；
能够更加重视高置信度分布的数据点；
每个簇中心对于损失的贡献是标准化的，防止大的簇扭曲了特征空间；

论文选择将软分配概率 $q_i$ 进行平方，从而实现目标分布，即
$p_{ij}=\frac{q_{ij}^2/f_j}{\sum_{j'}q_{ij'}^2/f_{j'}}$
其中， $f_j=\sum_i q_{ij}$ 是软类频率。

1.3 优化

论文使用带有momentum的 $\text{SGD}$ 来联合优化簇中心 ${u_j\}$ 和神经网络参数 $\theta$ 。损失函数 $L$ 关于每个数据点特征空间嵌入向量 $z_i$ 的梯度和每个簇中心 $u_j$ 的梯度为
$\frac{\partial L}{\partial z_i}=\frac{\alpha+1}{\alpha}\sum_j(1+\frac{||z_i-u_j||^2}{\alpha})^{-1}\\ \frac{\partial L}{\partial u_j}=-\frac{\alpha+1}{\alpha}\sum_i(1+\frac{||z_i-u_j||^2}{\alpha})^{-1}\times (p_{ij}-q_{ij})(z_i-u_j)$
当相邻两次迭代的变化小于 $tol\%$ 时停止优化。

2. 参数初始化

前面小节假设簇中心和神经网络参数均被初始化。本小节则是具体介绍如何进行初始化。

2.1 神经网络 $f_\theta$ 的初始化

论文使用堆叠自编码器来无监督学习数据在特征空间中的表示。堆叠自编码器采用逐层训练的方式，每一层的降噪自编码器都会重构前一层随机加入噪音的输出。降噪自编码器是一个两层的神经网络：
$\tilde{x}\sim Dropout(x) \\ h=g_1(W_1\tilde{x}+b) \\ \tilde{h}\sim Dropout(h) \\ y=g_2(W_2\tilde{h}+b_2)$
其中， $g_1$ 和 $g_2$ 是编码和解码层的激活函数，并且 $\theta=\{W_1,b_1,W_2,b_2\}$ 是模型参数。降噪自编码器的训练方式是最小化均方损失函数 $x-y||_2^2$ 。在训练完一层后，使用它的输出 $h$ 作为下一层训练的输入。

经过逐层的贪心训练后，将所有的编码器按顺序拼接起来形成一个深度自编码器，并通过最小化构造损失函数来微调。最终得到的是，一个由编码器拼接成的多层深度自编码器，该自编码器用来将数据映射至特征空间，从而完成初始化。

2.2 簇中心初始化

在获得初始化的特征空间向量表示后，使用标准的 $\text{k-mean}$ 聚类来获得 $k$ 个初始化簇中心 ${u_j\}_{j=1}^k$ 。

三、思考

论文的主要思路：1. 先使用已有的方式得到一个初步的聚类效果；2. 迭代的方式逐步改进聚类效果；
论文使用一个堆叠自编码器将数据映射至特征空间。这两年预训练模型有了长足的进步，这里可以使用预训练模型来提供自编码器；
聚类是否能作为预训练任务来预训练模型呢？这种得到的预训练模型是否有意义？
可否通过某种方式对聚类进行一定的控制？
这种迭代的方式是否可以用于少样本的有监督问题上？

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git