9734f14f7408d75a729ed4257ebe8b10.png

Yeh C K, Wu W C, Ko W J, et al. Learning deep latent space for multi-label classification[C]//Thirty-First AAAI Conference on Artificial Intelligence. 2017.

摘要

在机器学习相关领域多标签分类是一项实际但具有挑战性的任务,因为它要求为每个输入实例预测一个以上的标签类别。我们提出了一种新颖的深度神经网络(DNN)基于典范的相关自动编码器(C2AE)解决这个任务。为了更好地关联功能和标记域数据以改善分类,我们通过推导深度来执行联合特征和标签嵌入潜在空间,然后引入标签相关敏感损失函数,用于恢复预测的标签输出。我们的C2AE是通过集成规范相关分析和自动编码器的DNN架构而实现的,该架构允许端到端的学习和预测以及利用标签依赖性的能力。此外,我们的C2AE可以轻松扩展以解决缺少标签的学习问题。我们在不同规模的多个数据集上进行的实验证实了我们提出的方法的有效性和鲁棒性,显示出对最先进的多标签分类方法。

引言

由于多媒体数据中包含丰富的信息,因此许多现实世界中的分类任务需要为每个实例分配一个以上的标签。例如,需要对图像中的多种类型的对象进行批注,或者需要从音频片段中确定不同的身份。因此不同于标准的多类别识别问题(即每个输入数据仅一个类别标签),多标签分类通常需要额外的努力来提取和描述相关的数据/标签信息以产生令人满意的性能。

通过将原始的多标签分类问题划分为多个独立的二进制分类任务,二进制相关性是一种简单明了的技术和解决方案,已被相关领域的用户广泛采用。但是由于计算成本高,这种技术无法确定标签之间的相关性,提出的目的是通过假设标签先验信息来利用交叉标签的依赖性。然而,由于这些方法对多标签预测执行了一系列分类,因此如果需要减少计算量,则并行实现不适用。

降维的潜在标签空间也是多标签分类的一种流行技术。其目标是将标签空间转换为潜在子空间,然后将投影的输入和标签数据之间的关联进行分类。通过将投影数据映射回原始标签空间的适当解码过程,可以实现多标签预测的任务。由于学习这些潜在子空间不仅减少了分类时间,还可以隐式利用标签之间的相关性。建议观察到高维标签嵌入空间以执行上述任务,而不是观察尺寸减小的潜在空间。尽管如此,上述潜在空间学习算法都可以视为基于标签嵌入的方法。此外,在学习多标签分类模型的过程中处理丢失标签的能力对于像图像注释这样的实际应用也很实用。训练期间标记的数据不完整可能会导致分类器的噪声和预测能力不足。虽然在现有方法中通常无法很好地解决此问题,但选择带有标签平滑度正则化的转导设置,并且通过制定凸二次矩阵优化问题来解决该问题。

在第一个利用神经网络架构的方法中,BP-MLL不仅将每个输出节点都视为二进制分类任务,而且还依赖于架构本身来利用跨标签的依赖性。后来Nam等人对其进行了扩展,增加了其他的深度神经网络(DNN)技术。一些研究提出了不同的损失函数架构,以进一步提高性能。但是由于仅考虑了线性嵌入,因此可能无法成功发现不同标签之间的更高顺序依赖性。

在本文中,我们提出了一种新颖的基于DNN的框架,用于多标签分类的规范相关自动编码器(C2AE)。与大多数基于标签嵌入的方法不同,这些方法通常将标签嵌入和预测视为两个单独的任务,我们的C2AE进行了深度规范相关分析(DCCA)和自动编码器,以学习用于标签嵌入和多标签分类的特征感知潜在子空间。此外,借助在解码输出端引入了标签相关性感知损失功能,我们可以更好地利用C2AE在标签嵌入和预测过程中更好地利用跨标签依赖性。本文的主要贡献如下:

(1)通过利用和集成深度规范相关分析和自动编码器的体系结构,我们的规范相关自动编码器(C2AE)成为了第一个基于DNN的用于多标签分类的标签嵌入框架。

(2)我们的C2AE能够执行感知功能的标签嵌入和标签相关性预测。 前者是通过DCCA和自动编码器的编码阶段的联合学习来实现的,而后者是通过引入解码输出的损失函数来实现的。

(3)在不修改建议的体系结构的情况下,我们的C2AE可以轻松扩展以处理缺失的标签问题。我们的实验证明,在有/无缺失标签的情况下,我们在多标签分类任务上的性能要比最新技术好得多。

研究方法

A.规范相关的自动编码器(C2AE)

令D = {(xi,yi)} N i /1 = {X,Y}表示一组d维训练实例X∈IRd×N和相关的标签Y∈{0,1} m×N,其中N和m分别是实例数和标签属性。通过观察D,多标签分类的目的是得到一个合适的学习模型,从而可以相应地预测标签的寿命。

受标签嵌入和深度学习最新发展的推动,我们提出了一种规范相关自动编码器(C2AE)的新颖DNN架构,如图1所示。我们的C2AE利用深度规范相关分析(DCCA)和自动编码器结构来学习来自特征域和标签域的潜在子空间,用于多标签分类。

9f1882a3a0f30147f86965f310015b58.png
图1规范相关自动编码器(C2AE)的体系结构,通过Fx,Fe和Fd的非线性映射学习潜空间L。请注意,X和Y分别是输入数据和标签数据。

如图1所示,我们的C2AE(用Θ表示)将两个有效的DNN模型(即DCCA和自动编码器)与三个待确定的映射函数集成在一起:特征映射Fx,编码函数Fe和解码函数Fd。在训练阶段,C2AE的输入是观察到的训练实例X及其标签Y,而恢复的输出是标签Y(即与输入标签相同)。为了确定潜在空间L,我们的C2AE的DCCA组件将X和Y关联起来,而自动编码器部分将输出强制为Y回收。因此,C2AE的目标函数可以表示为:

54472a1fa98bc60ca80bdad78c507566.png

其中Φ(Fx,Fe)和Γ(Fe,Fd)分别表示C2AE的潜在空间和输出处的损耗。并且参数α在以上两种损失函数之间保持平衡。

一旦完成对C2AE的学习,就可以轻松地应用它来预测标签输入。更准确地说,将通过Fx首先将测试输入ˆx转换为派生的潜在空间,然后再对Fd进行编码映射以预测其输出标签ˆ y。

B.学习深度潜在空间以实现联合特征和标签嵌入

现在,我们讨论为什么在C2AE中推进DCCA,以实现功能和标签感知嵌入。 为了完整起见,我们首先简要回顾一下CCA和DCCA的观点。

作为用于关联跨域数据(例如,输入要素数据X及其标签数据Y)的标准统计技术,CCA旨在确定每个域的线性投影矩阵W1和W2,旨在观察其中投影数据的相关性最大化的子空间( 即corr(WT 1 X,WT 2 Y))。用DNN代替两个线性投影后,DCCA用梯度下降技术学习/更新的DNN模型解决了相同的目标函数。

确定(1)中的Φ(Fx,Fe),以适应其思想并将基于相关的目标函数重写为以下更深的版本:

192d9f448dcea730e94095e092887fe0.png

其中Fx(X)和Fe(Y)分别表示派生的潜在空间L中的变换特征和标签数据。 并且,I∈IRl×l是单位矩阵,其中l是潜在空间L的维数。上述恒等约束将使上述公式等同于相关最大化的标准CCA反对函数;与标准CCA优化任务相比,上述公式使我们能够有效地计算网络损耗和相应的梯度下降函数。

通过使用DNN模型求解(2)中的Fx(X)和Fe(Y),我们强制学习的深度潜在空间将特征数据和标签数据联合在一起。值得注意的是,尽管现有基于标签嵌入的多标签分类方法使用特征或标签数据进行子空间学习,但他们通常会学习与特征相关的其他模型数据和派生子空间以进行预测。换句话说,标签嵌入和多标签预测的任务是分别执行的,这可能不是优选的。在我们的工作中,我们不仅利用(2)进行具有分类保证的联合特征和标签嵌入,而且与自动编码器体系结构的集成还为令人满意的预测目的提供了令人满意的可恢复性。

C.学习和恢复标签相关的输出

利用我们C2AE中的DCCA组件执行DCCA的联合功能和标签嵌入,我们进一步完善了C2AE中的自动编码器以恢复标签输出,并特别保留了跨标签依赖性。

受(ZhangandZhou2006)的启发,我们在C2AE的输出端引入了标签相关感知损失函数,其确定如下:

f4527a453d71d9b184f5dc26d0a1c2ba.png

其中y1 i表示第i个实例xi中yi中的正标记集,而y0 i是负标记的集合。给定输入xi,Fd(Fe(xi))p返回C2AE输出的第p个条目。因此,最小化上述损失函数等同于最大化所有正负标签属性对的预测输出,这隐含地强制了标签共现信息的保存。如果考虑标准均方误差或交叉熵损失,则无法成功识别这种标签依赖性。

借助上述损失功能,我们的集成了DCCA和自动编码器的C2AE可以看作是端到端DNN,它可以在统一模型中执行联合特征/标签嵌入和标签相关的感知预测。更准确地说,我们能够在统一框架中学习特征嵌入Fx,标签嵌入Fe和标签预测Fd。如前所述,大多数现有的基于线性或非线性标签嵌入的方法都是在没有性能相关保证的情况下单独导出上述模型的。 在稍后的实验中,我们将验证我们的方法相对于此类方法的有效性。

D.从数据中学习缺少标签

如前所述,我们的C2AE可以进一步扩展到缺少标签的多标签分类问题。 也就是说,当预计在训练阶段会丢失标签时,我们需要学习一个强大的C2AE模型。

为了解决这一具有挑战性的实际任务,请轻松应用更通用的设置来确定我们的C2AE的损失函数。更具体地说,对于具有正,负和某些缺少标签属性的实例,我们通过计算仅从已知标签对(即可用的正负标签对)得出的损失来确定(3)的损失函数。这将使我们的C2AE对丢失的标签具有鲁棒性,并且在利用已知标签属性中的标签依赖项方面具有足够的能力。

除了在C2AE的输出层扩展丢失函数以处理缺少标签的数据外,我们还将对此类数据执行简单的预处理阶段,然后再将其馈入我们的网络。 更准确地说,我们将实例中的正标签设置为1,缺失标签设置为0,将负标签设置为-| y1 i |/| y0 i | 用于将标签的平均值保持为0。这是为了确保丢失的标签不会被输入到DNN模型中,因为其值设置为0,从而有效地抑制了噪声(来自缺失的标签)映射到弹性空间。

F.优化

通过学习C2AE模型,可以解决(1)的优化问题,其中分别在潜在空间和C2AE的输出处计算损耗项Φ(Fx,Fe)和Γ(Fe,Fd)。

类似于现有DNN模型的推导,我们对每个损失项应用梯度下降技术来更新相应的网络参数。如图1所示,Φ(Fx,Fe)的梯度更新了特征映射Fx和编码Fe,而Γ(Fe,Fd)的梯度更新了编码Fe和解码函数Fd。

为了计算Φ(Fx,Fe)的梯度项,我们借助拉格朗日乘数重新公式化(2):

60b041b688c754224c6320e1749d05f9.png

fee1bd1402ebed12ab03da40bab1fdd9.png

因此,Φ(Fx,Fe)相对于Fx(X)和Fe(Y)的梯度可推导为:

30ea53c977f3bb3f2fe803a219b59360.png

接下来,我们讨论如何计算相对于每个Fd(Fe(xi))j的Γ(Fe,Fd)(如(3)中所述)的梯度。 为简单起见,我们令cj i = Fd(Fe(xi))j,因此可以按以下公式得出上述梯度:

fcf0d3f6c8c1d9bf60c2fa84f0b549eb.png

其中y1 i表示第i个实例xi中yi中的正标记集,而y0 i是负标记的集合。

通过上述推导,我们可以通过梯度下降来学习C2AE,并且在算法1中总结了伪代码。一旦完成C2AE的学习,就可以通过舍入ˆ y = Fd(Fx(ˆ x))轻松实现测试输入ˆ x的标签预测。

06943074797daa1a91438bc05d0b58a6.png

实验

A.数据集和设置

为了评估我们提出的方法的性能,我们考虑以下实验数据集:iaprtc12,ESPGame,mir fl ickr,tmc2007和NUS-WIDE。前三个数据集是(Guillaumin等,2009)中使用的图像数据集,其中提取了1000维单词袋特征。我们注意到tmc2007是从Mulan(Tsoumakasetal.2011)下载的大规模文本数据集,并且通常将NUS-WIDEisa大规模图像数据集应用于图像注释任务。每个数据集的详细信息在表1中列出。对于NUS-WIDE,我们遵循(Gong等 (2013年等人),则丢弃没有正面标签的实例,并随机选择150,000个实例进行训练,其余选择进行测试。为了与其他基于CNN的方法进行公平比较,我们使用预先训练的AlexNet模型为NUS-WIDE提取了4096维fc-7功能。

03d8c89b53781617711a21914977c0af.png
表1 考虑用于绩效评估的数据集

对于C2AE的体系结构,Fx由2层完全连接的层组成,而Fd和Fe均为单个完全连接的层结构。对于每个完全连接的层,总共使用512个神经元。考虑到Aleaky ReLU激活功能,而批量大小固定为500。要选择C2AE的参数,我们随机持有训练数据的1/6进行验证(α选自[0.1,10],λ固定为0.5 )。我们还执行了相同的验证过程来选择参数(包括用于预测最终标签的阈值)以与其他方法进行实验比较。

B.与基于标签嵌入的方法进行比较

我们首先考虑基于标签嵌入的方法进行比较:条件主标签空间变换(CPLST),特征感知隐式标签空间编码(FaIE),多标签低等级经验最小化风险学习(LEML),用于极端多标签分类的稀疏局部嵌入(SLEEC),以及部分二进制相关性(PBR)的基线方法。另外,我们用DNN回归值代替CPLST和FAIE中的线性回归值,并表示Deep CPLST和Deep FAIE等方法。

图2展示并比较了上述方法的性能,其中水平轴表示潜伏空间尺寸(l / m)。从这个图可以看出,在大多数情况下,我们的C2AE在安装标签嵌入方法(引入和不引入DNN)中都表现出了良好的性能,这支持了对非线性联合特征和标签的挖掘。 我们还看到,随着CPLST和FAIE的DNN架构的引入,它们的DNN版本无法实现与我们相同的性能。这进一步验证了从特征数据和标签数据中学习C2AE的有效性,并具有识别标签共现的附加功能

13ba2393cab8026ca3ac09a6b6402506.png
图2 在具有不同潜在空间尺寸比(l / m)的Micro-F1和Macro-F1方面的性能比较

为了进一步验证我们导出的深层潜在空间的有效性,我们考虑了IAPRTC-12中的几个示例标签,并在图3中列出了它们对应的相邻标签。从这个图可以看出,在潜在空间中观察到的相邻标签表现出高度相关的语义信息。这证实了我们的C2AE在学习过程中充分利用了标签依赖性。

38d7e0aa3d7631e05763faf45d4e2bc7.png
图3 IAPRTC-12嵌入式标签的可视化

C.与基于DNN的方法的比较

我们进一步将C2AE与最新的基于DNN的多标签分类方法进行比较。除了DNN的基线方法(作为与BCE的损失函数具有二元相关性的更深版本和BP-MLL))外,我们还有(1)WARP,它是具有WARP丢失功能的CNN网络,以及(2)CNN-RNN这是结合了CNN和RNN进行多标签预测的最新DNN。

NUS-WIDE的大规模图像注释数据集用于评估和比较。如前所述,出于公平比较的目的,我们使用预先训练的AlexNet网络作为C2AE和其他方法的特征输入,从NUS-WIDE中提取4096维fc7特征。并且,由于现有的DNN方法无法从标签空间执行降维,因此我们将降维比l / m固定为1。

表2列出并比较了基于DNN的不同方法的分类性能。可以看出,DNNBCE和CNN-WARP没有表现出利用标签共现信息的能力,因此它们无法获得令人满意的性能。尽管通过线性嵌入将此类功能引入BP-MLL和CNN-RNN中,但我们的方法仍在所有考虑的DNN方法中产生了可喜的性能。这支持我们在特征/标签嵌入和标签关联开发中使用DNN模型。

12d548abe5e328cfc26ae38bb5597530.png
表2 在NUS-WIDE上基于DNN的方法的性能比较。 Macro-F1和Micro-F1分别缩写为C-F1和O-F1

D.缺少标签的绩效评估

最后,我们要完成一项具有挑战性的任务,即在训练集中显示缺失的标签。为了进行实验,我们将标签缺失率从10%更改为50%,同时要求为每个实例保留至少一个阳性标签。现在考虑三种最先进的方法:(1)LEML;(2)带有缺失标签的多标签学习(MLu);(3)ML-MG(即,多标签学习)使用混合图(ML-PGD)进行缺少标签的标签学习。我们在图4中显示了性能比较,其中C2AE相对于其他方法始终如一地表现出色。值得注意的是,现有解决方案通常将线性回归变量作为其预测变量,并将其进行正则化以处理丢失的标签。我们的C2AE通过联合功能和标签嵌入来独特地执行端到端学习。通过上述实验可以成功验证其对多标签分类的有效性以及对丢失标签问题的鲁棒性。

d8dae7fd5e67bcfe611ca74520b5c30e.png
图4 标签丢失率不同的Micro-F1和Macro-F1的比较

结论与思考

1、文章提出C2AE解决多标签分类的任务。对于输入信息中存在较多标签时,C2AE对大量标签分类取得非常良好的效果。对于输入的chirp信号只有时延、频移、信噪比三个标签,接下来考虑深度学习多维数据处理。

2、文章证明了C2AE在多个数据集上优于基线和最新方法,而且在具有不同数量的缺失标签情况下,C2AE可以轻松地用于学习任务。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐