学习:AlexNet(深度学习革命的里程碑之作)
我们训练了一个大型深度卷积神经网络,将 ImageNet LSVRC-2010 竞赛中的 120 万张高分辨率图像分为 1000 个不同的类别。在测试数据上,我们分别实现了 37.5% 和 17.0% 的前 1 名和前 5 名错误率,这比之前的最先进技术要好得多。该神经网络拥有 6000 万个参数和 650,000 个神经元,由五个卷积层组成,其中一些卷积层后跟最大池化层,以及三个全连接层,最终具
本文将为大家介绍经典神经网络的开山力作——AlexNet(ImageNet Classification with Deep Convolutional Neural Networks)。
原文:https://cacm.acm.org/research/imagenet-classification-with-deep-convolutional-neural-networks/
目录
4.1. 整流线性单元非线性(ReLu:Rectified Linear Unit nonlinearity)
4.2. 在多个 GPU 上训练(Training on multiple GPUs)
4.3. 局部响应归一化(Local response normalization)
4.4. 重叠池化(Overlapping pooling)
4.5. 整体架构(Overall architecture)
5. 减少过度拟合(Reducing Overfitting)
7.1. 定性评估(Qualitative evaluations)
摘要(abstract)
我们训练了一个大型深度卷积神经网络,将 ImageNet LSVRC-2010 竞赛中的 120 万张高分辨率图像分为 1000 个不同的类别。在测试数据上,我们分别实现了 37.5% 和 17.0% 的前 1 名和前 5 名错误率,这比之前的最先进技术要好得多。该神经网络拥有 6000 万个参数和 650,000 个神经元,由五个卷积层组成,其中一些卷积层后跟最大池化层,以及三个全连接层,最终具有 1000 路软最大值。为了加快训练速度,我们使用了非饱和神经元和非常高效的卷积运算 GPU 实现。为了减少全连接层中的过拟合,我们采用了一种最近开发的称为“dropout”的正则化方法,该方法被证明非常有效。我们还在 ILSVRC-2012 竞赛中参加了该模型的变体,并取得了 15.3% 的前 5 名测试错误率,而第二好的参赛作品则达到了 26.2%。
1. 序言(Prologue)
四年前,Yann LeCun 和他的合作者的一篇论文被领先的计算机视觉会议拒绝,理由是它使用了神经网络,因此没有提供如何设计视觉系统的见解。当时,大多数计算机视觉研究人员认为,视觉系统需要在对任务性质的详细了解后仔细手工设计。他们假设,通过简单地向神经网络展示图像示例及其包含的对象的名称,将自然图像中的对象分类任务永远无法解决,神经网络从这些训练数据中获取所有知识。
视觉研究界的许多人没有意识到,需要由了解该领域的程序员仔细手工工程的方法以及用强大的通用学习程序取代程序员的方法无法扩展。有了足够的计算和足够的数据,学习胜过需要集成许多不同、嘈杂提示的复杂任务的编程。
四年前,当我们在多伦多大学时,我们名为 SuperVision 的深度神经网络几乎将识别自然图像中物体的错误率减半,并引发了计算机视觉中姗姗来迟的范式转变。图 4 显示了 SuperVision 可以做什么的一些示例。
SuperVision 是从 1980 年代广泛研究的多层神经网络演变而来的。这些网络使用多层特征检测器,这些特征检测器都是从训练数据中学习的。神经科学家和心理学家曾假设,这种特征检测器的层次结构将提供一种识别物体的稳健方法,但他们不知道如何学习这种层次结构。1980 年代引起了极大的兴奋,因为几个不同的研究小组发现,可以使用一种称为反向传播的相对直接的算法有效地训练多层特征检测器18,22,21,33计算每个图像的整个网络的分类性能如何取决于每个连接上的权重值。
反向传播对于各种任务都有效,但在 1980 年代,它并没有达到其倡导者的极高期望。特别是,事实证明,学习具有多层的网络非常困难,而这些正是应该给出最令人印象深刻的结果的网络。许多研究人员错误地得出结论,即从随机初始权重中学习深度神经网络太困难了。20 年后,我们知道出了什么问题:深度神经网络要大放异彩,需要更多的标记数据和更多的计算。
2. 引言(Introduction)
当前的物体识别方法基本上使用了机器学习方法。为了提高它们的性能,我们可以收集更大的数据集,学习更强大的模型,并使用更好的技术来防止过度拟合。直到最近,标记图像的数据集还相对较小——大约有数万张图像(例如,NORB、19加州理工学院-101/256,8、10和 CIFAR-10/10014).使用这种大小的数据集可以很好地解决简单的识别任务,特别是如果它们通过标签保留变换进行增强。例如,MNIST 数字识别任务的当前最佳错误率 (<0.3%) 接近人类表现。5但是现实环境中的对象表现出相当大的可变性,因此要学会识别它们,有必要使用更大的训练集。事实上,小型图像数据集的缺点已被广泛认可(例如,Ref.25),但直到最近才有可能收集包含数百万张图像的标记数据集。新的大型数据集包括 LabelMe、28由数十万张完全分割的图像组成,以及 ImageNet、7它由 22,000 多个类别的超过 1500 万张标记的高分辨率图像组成。
要从数百万张图像中了解数千个对象,我们需要一个具有大学习能力的模型。然而,对象识别任务的巨大复杂性意味着即使是像 ImageNet 这样大的数据集也无法指定这个问题,因此我们的模型也应该有大量的先验知识来补偿我们没有的所有数据。卷积神经网络 (CNN) 构成了此类模型之一。9、15、17、19、21、26、32它们的容量可以通过改变它们的深度和广度来控制,并且它们还对图像的性质(即统计的平稳性和像素依赖性的局部性)做出了强大且基本正确的假设。因此,与具有相似大小层的标准前馈神经网络相比,CNN 的连接和参数要少得多,因此它们更容易训练,而它们理论上的最佳性能可能只是稍差一些。
尽管 CNN 具有吸引人的品质,并且尽管其局部架构相对高效,但将它们大规模应用于高分辨率图像的成本仍然高得令人望而却步。幸运的是,当前的 GPU 与高度优化的 2D 卷积实现相结合,功能强大,足以促进有趣大型 CNN 的训练,并且最近的数据集(例如 ImageNet)包含足够的标记示例来训练此类模型,而不会严重过度拟合。
本文的具体贡献如下:我们训练了迄今为止最大的 CNN 之一,用于 ImageNet 大规模视觉识别挑战赛 (ILSVRC)-2010 和 ILSVRC-2012 竞赛中使用的 ImageNet 子集2并取得了迄今为止在这些数据集上报告的最佳结果。我们编写了一个高度优化的 GPU 实现,用于 2D 卷积和训练 CNN 中固有的所有其他作,并公开提供。第3节点,我们的网络包含许多新的和不寻常的功能,这些功能可以提高其性能并减少其训练时间,这些功能在第 4 节中进行了详细介绍。我们的网络规模使过度拟合成为一个重大问题,即使有 120 万个标记的训练示例,因此我们使用了几种有效的技术来防止过度拟合,这些技术在第 5 节中进行了描述。我们的最终网络包含五个卷积层和三个全连接层,这个深度似乎很重要:我们发现删除任何卷积层(每个卷积层包含不超过 1% 的模型参数)会导致性能下降。
最后,网络的大小主要受到当前 GPU 上可用内存量和我们愿意容忍的训练时间的限制。我们的网络需要 5 到 6 天才能在两个 GTX 580 3GB GPU 上进行训练。我们所有的实验都表明,只需等待更快的 GPU 和更大的数据集可用,就可以改进我们的结果。
3.数据集(The dataset)
ImageNet 是一个包含超过 1500 万张标记的高分辨率图像的数据集,属于大约 22,000 个类别。这些图像是从网络上收集的,并由人工贴标人员使用亚马逊的 Mechanical Turk 众包工具进行标记。从 2010 年开始,作为 Pascal 视觉对象挑战赛的一部分,每年都会举办名为 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 的竞赛。ILSVRC 使用 ImageNet 的一个子集,其中 1000 个类别中的每个类别大约有 1000 个图像。总共有大约 120 万张训练图像、50,000 张验证图像和 150,000 张测试图像。
ILSVRC-2010 是唯一可用的测试集标签的 ILSVRC 版本,因此这是我们进行大部分实验的版本。由于我们也在 ILSVRC-2012 竞赛中输入了我们的模型,因此在第 7 节中,我们也报告了我们在此版本的数据集上的结果,该版本的数据集没有测试集标签。在 ImageNet 上,习惯上报告两种错误率:前 1 名和前 5 名,其中前 5 名错误率是模型认为最有可能的五个标签中没有正确标签的测试图像的比例。
ImageNet 由可变分辨率图像组成,而我们的系统需要恒定的输入维度。因此,我们将图像下采样到 256 × 256 的固定分辨率。给定一个矩形图像,我们首先重新缩放图像,使较短的边长为 256,然后从生成的图像中裁剪出中央的 256 × 256 块。我们没有以任何其他方式对图像进行预处理,除了从每个像素中减去训练集图片的像素平均值。因此,我们在像素的(中心化)原始 RGB 值上训练了我们的网络。
4. 架构(The Architecture)
图 2 总结了我们网络的架构。它包含八个学习层——五个卷积层和三个完全连接层。下面,我们描述了我们网络架构的一些新颖或不寻常的功能。第 4.1-4.4 节根据我们对其重要性的估计进行排序,最重要的在前。
4.1. 整流线性单元非线性(ReLu:Rectified Linear Unit nonlinearity)
将神经元的输出 f 建模为其输入 x 的函数的标准方法是使用 f(x) = tanh(x) 或 f(x) = (1 +e−x)−1.就梯度下降的训练时间而言,这些饱和非线性比非饱和非线性 f(x) = max(0, x) 慢得多。继奈尔和辛顿之后,24我们将具有这种非线性的神经元称为整流线性单元 (ReLU)。具有 ReLU 的深度 CNN 的训练速度比使用 tanh 单位的同类产品快数倍。图 1 演示了这一点,该图显示了特定四层卷积网络在 CIFAR-10 数据集上达到 25% 训练误差所需的迭代次数。该图表明,如果我们使用传统的饱和神经元模型,我们将无法在这项工作中试验如此大的神经网络。


我们并不是第一个考虑在 CNN 中替代传统神经元模型的人。例如,Jarrett 等人。声称非线性 f(x) = |tanh(x)|特别适用于其对比度归一化类型,然后是 Caltech-101 数据集上的局部平均池化。然而,在这个数据集中,主要关注的是防止过度拟合,因此他们观察到的效果与我们在使用 ReLU 时报告的拟合训练集的加速能力不同。更快的学习速度对在大型数据集上训练的大模型的性能有很大影响。
eg. ReLu激活函数在某种程度上是可以有效缓解梯度消失现象, 主要用于卷积神经网络(CNN)和 Transformer 的隐藏层。
4.2. 在多个 GPU 上训练(Training on multiple GPUs)
单个 GTX 580 GPU 只有 3GB 内存,这限制了可以在其上训练的网络的最大大小。事实证明,120 万个训练示例足以训练太大而无法容纳在一个 GPU 上的网络。因此,我们将网络分布在两个 GPU 上。当前的 GPU 特别适合跨 GPU 并行化,因为它们能够直接读取和写入彼此的内存,而无需通过主机内存。我们采用的并行化方案本质上是将一半的内核(或神经元)放在每个 GPU 上,还有一个额外的技巧:GPU 仅在某些层中进行通信。这意味着,例如,第 3 层的内核从第 2 层中的所有内核映射中获取输入。但是,第 4 层中的内核仅从驻留在同一 GPU 上的第 3 层中的内核映射中获取输入。选择连接模式是交叉验证的一个问题,但这使我们能够精确调整通信量,直到它成为计算量的可接受部分。

由此产生的架构有点类似于 Cireşan 等人采用的“柱状”CNN 的架构,4除了我们的列不是独立的(见图 2)。与在一个 GPU 上训练的每个卷积层中内核数量减半的网络相比,该方案将我们的前 1 名和前 5 名错误率分别降低了 1.7% 和 1.2%。双 GPU 网络的训练时间比单 GPU 网络略少。
4.3. 局部响应归一化(Local response normalization)
ReLU 具有理想的属性,即它们不需要输入归一化来防止它们饱和。如果至少有一些训练示例对 ReLU 产生积极的输入,则该神经元中将发生学习。然而,我们仍然发现以下局部归一化方案有助于泛化。表示方式一个我x、y通过在位置 (x, y) 处应用核 i 然后应用 ReLU 非线性(响应归一化活动)来计算神经元的活动b我x、y由表达式给出

其中总和运行在相同空间位置的 n 个“相邻”核映射上,N 是层中核的总数。内核映射的顺序当然是任意的,并且在训练开始之前确定。这种响应归一化实现了一种受真实神经元类型启发的横向抑制形式,在使用不同内核计算的神经元输出之间创造了大活动的竞争。常量 k、n、α 和 β 是超参数,其值使用验证集确定;我们使用 k = 2、n = 5、α = 10-4,β = 0.75。我们在某些层中应用 ReLU 非线性后应用了这种归一化(参见第 4.5 节)。
该方案与 Jarrett 等人的局部对比度归一化方案有一些相似之处,但我们的标准更正确地称为“亮度归一化”,因为我们不减去平均活动。响应归一化将我们的前 1 名和前 5 名错误率分别降低了 1.4% 和 1.2%。我们还在CIFAR-10数据集上验证了该方案的有效性:四层CNN在没有归一化的情况下达到了13%的测试错误率,在归一化的情况下达到了11%的测试错误率。
eg:LRN灵感来源于神经生物学中的侧抑制现象,即被激活的神经元会抑制其邻近的神经元。这种机制在神经网络中被用来增强局部神经元之间的竞争,使得响应较大的值相对更大,从而抑制其他较小的反馈,增强模型的泛化能力。公式中的平方和,是体现在channel(通道)维度上 ,抑制周围feature map的值。
4.4. 重叠池化(Overlapping pooling)
CNN 中的池化层汇总了同一核图中相邻神经元组的输出。传统上,由相邻池单元汇总的邻域不会重叠(例如,Refs.5、13、20).更准确地说,池化层可以被认为是由间隔 s 像素的池化单元网格组成,每个池化单元汇总了以池化单元位置为中心的大小为 z × z 的邻域。如果我们设置 s = z,我们就会获得 CNN 中常用的传统局部池化。如果我们将 s 设置为 s(步长)<z(卷积核大小) ,我们就会得到重叠池化。

这是我们在整个网络中使用的,s = 2 和 z = 3。与产生等效维度输出的非重叠方案 s = 2, z = 2 相比,该方案将前 1 和前 5 的错误率分别降低了 0.4% 和 0.3%。我们通常在训练过程中观察到,发现具有重叠池化的模型某种程度减轻过度拟合。
eg:s 设置为 s(步长)<z(卷积核大小),有部分特征值是重叠采样的
4.5. 整体架构(Overall architecture)
现在我们准备好描述 CNN 的整体架构。如图 2 所示,网络包含八个具有权重的层;前五个是卷积的,其余三个是全连通的。最后一个全连通层的输出被馈送到一个 1000 向软最大值,该软最大值产生 1000 个类标签的分布。我们的网络最大化了多项式逻辑回归目标,这相当于最大化预测分布下正确标签的对数概率的训练案例的平均值。
第二、第四和第五卷积层的内核仅连接到前一层中驻留在同一 GPU 上的内核映射(见图 2)。第三卷积层的内核连接到第二层中的所有内核映射。全连接层中的神经元连接到前一层中的所有神经元。响应归一化层遵循第一卷积层和第二卷积层。第 4.4 节中描述的最大池化层遵循响应归一化层和第五卷积层。ReLU 非线性应用于每个卷积层和全连接层的输出。


第一个卷积层过滤 224 × 224 × 3 输入图像,其中包含 96 个大小为 11 × 11 × 3 的内核,步幅为 4 像素(这是内核图中相邻神经元的感受野中心之间的距离)。第二个卷积层将第一个卷积层的(响应归一化和池化)输出作为输入,并用 256 个大小为 5 × 5 × 48 的内核对其进行过滤。第三、第四和第五卷积层相互连接,没有任何中间池化或归一化层。第三卷积层有 384 个大小为 3 × 3 × 256 的内核连接到第二个卷积层的(归一化、池化)输出。第四卷积层有 384 个大小为 3 × 3 × 192 的内核,第五个卷积层有 256 个大小为 3 × 3 × 192 的内核。全连接层每个有 4096 个神经元。
5. 减少过度拟合(Reducing Overfitting)
我们的神经网络架构有 6000 万个参数。尽管 ILSVRC 的 1000 类使每个训练示例对从图像到标签的映射施加了 10 位约束,但事实证明,这不足以在没有相当大的过拟合的情况下学习如此多的参数。下面,我们描述了对抗过度拟合的两种主要方法。
5.1. 数据扩充(Data augmentation)
减少图像数据过拟合的最简单和最常见的方法是使用标签保留变换.我们采用了两种不同的数据增强形式,这两种形式都允许以很少的计算从原始图像生成转换后的图像,因此转换后的图像不需要存储在磁盘上。在我们的实现中,转换后的图像是在 CPU 上的 Python 代码中生成的,而 GPU 则在前一批图像上进行训练。因此,这些数据增强方案实际上是计算自由的。
数据增强的第一种形式包括生成图像平移和水平反射。我们通过从 256 × 256 图像中随机提取 224 × 224 个斑块(及其水平翻转),并在这些提取的斑块上训练我们的网络来做到这一点。这使我们的训练集的规模增加了 2048 倍,尽管由此产生的训练示例当然是高度相互依赖的。如果没有这个方案,我们的网络就会遭受严重的过度拟合,这将迫使我们使用更小的网络。在测试时,网络通过提取 5 个 224 × 224 斑块(四个角斑块和中心斑块)及其水平反射(因此总共 10 个斑块)来进行预测,并对网络的 softmax 层对 10 个斑块做出的预测进行平均。

第二种形式的数据增强包括改变训练图像中 RGB 通道的强度。具体来说,我们对整个 ImageNet 训练集中的 RGB 像素值集执行 PCA。对于每个训练图像,我们添加找到的主成分的倍数,其大小与相应的特征值成正比,乘以从平均值为 0、标准差为 0.1 的高斯中提取的随机变量。因此,对于每个 RGB 图像像素我们添加以下数量:
其中 p和λ分别是RGB 像素值的 3 × 3 协方差矩阵的特征向量和特征值,并且α我是前面提到的随机变量。每α我仅针对特定训练图像的所有像素绘制一次,直到该图像再次用于训练,此时重新绘制。该方案大致捕捉了自然图像的一个重要属性,即物体身份对照明强度和颜色的变化不变。该方案将前 1 名错误率降低了 1% 以上。
eg.减轻图片中目标主体受光照和颜色的影响
5.2. 暂退法(Dropout)
结合许多不同模型的预测是减少测试误差的非常成功的方法,但对于已经需要几天时间训练的大型神经网络来说,这似乎太昂贵了。然而,有一个非常有效的模型组合版本,在训练期间的成本仅为两倍左右。最近推出的技术,称为“辍学”,包括将每个隐藏神经元的输出设置为零,概率为 0.5。以这种方式“退出”的神经元不有助于向前传递,也不参与向后传播。因此,每次呈现输入时,神经网络都会对不同的架构进行采样,但所有这些架构都共享权重。这种技术减少了神经元的复杂共同适应,因为神经元不能依赖特定其他神经元的存在。因此,它被迫学习更稳健的特征,这些特征与其他神经元的许多不同的随机子集结合使用是有用的。在测试时,我们使用所有神经元,但将它们的输出乘以 0.5,这是取指数多辍学网络产生的预测分布的几何平均值的合理近似值。
我们在图 2 的前两个全连接层中使用了压差。如果没有辍学,我们的网络表现出显着的过拟合。Dropout 大约是收敛所需的迭代次数的两倍。

6. 学习内容(Details of Learning)
我们使用随机梯度下降法训练了我们的模型,批量大小为 128 个示例,动量为 0.9,权重衰减为 0.0005。我们发现,这种少量的权重衰减对于模型学习很重要。换句话说,这里的权重衰减不仅仅是一个正则化器,它减少了模型的训练误差。权重 w 的更新规则为

其中 i 是迭代指数,v 是动量变量,ε 是学习率,并且是第 i批的平均值D我目标相对于 W 的导数,评估为w我.
我们从标准差为 0.01 的零均值高斯分布初始化了每一层的权重。我们初始化了第二、第四和第五卷积层以及全连接隐藏层中的神经元偏差,常数为 1。这种初始化通过为 ReLU 提供正输入来加速学习的早期阶段。我们用常数 0 初始化其余层中的神经元偏差。
我们对所有层使用了相同的学习率,并在整个训练过程中手动调整了学习率。我们遵循的启发式方法是,当验证错误率停止随着当前学习率的提高而停止提高时,将学习率除以 10。学习率初始化为 0.01,并在终止前降低了 3 倍。我们通过 120 万张图像的训练集对网络进行了大约 90 个周期的训练,这在两个 NVIDIA GTX 580 3GB GPU 上花费了 5-6 天。
7. 结果(Results)
我们对ILSVRC-2010的结果总结在表1中。我们的网络分别实现了 37.5% 和 17.0% 的前 1 名和前 5 名测试集错误率。e在ILSVRC-2010竞赛期间取得的最佳表现分别为47.1%和28.2%,其方法对在不同特征上训练的六个稀疏编码模型产生的预测进行平均,从那时起,最好的已发表结果分别为 45.7% 和 25.7%,其方法对根据两种类型的密集采样特征计算的费舍尔向量 (FV) 训练的两个分类器的预测值进行平均。
我们还在ILSVRC-2012竞赛中输入了我们的模型,并在表2中报告了我们的结果。由于 ILSVRC-2012 测试集标签不公开,因此我们无法报告我们尝试过的所有模型的测试错误率。在本段的其余部分,我们将验证错误率和测试错误率互换使用,因为根据我们的经验,它们的差异不超0.1%。本文描述的单个CNN的错误率为18.2%,达到了前5名。对五个相似 CNN 的预测进行模型融合,错误率为 16.4%。训练一个 CNN,在最后一个池化层上多一个第六个卷积层,对整个 ImageNet 2011 年秋季版本(15M 图像,22K 类别)进行分类,然后在 ILSVRC-2012 上对其进行“预训练”,错误率为 16.6%。将上述五个 CNN 在整个 2011 年秋季版本上预训练的两个 CNN 的预测平均值,错误率为 15.3%。第二好的比赛参赛作品的错误率为 26.2%,其方法对根据不同类型的密集采样特征计算的 FV 训练的几个分类器的预测进行平均。
最后,我们还报告了 2009 年秋季版 ImageNet 的错误率,其中包含 10,184 个类别和 890 万张图像。在这个数据集上,我们遵循文献中的惯例,使用一半的图像进行训练,一半用于测试。由于没有既定的测试集,我们的拆分必然与以前作者使用的拆分不同,但这不会明显影响结果。我们在这个数据集中的前 1 和前 5 名错误率分别为 67.4% 和 40.9%,这是通过上述网络实现的,但在最后一个池化层上增加了第六个卷积层。该数据集的最佳发布结果分别为 78.1% 和 60.9%。
7.1. 定性评估(Qualitative evaluations)
图 3 显示了网络的两个数据连接层学习的卷积核。该网络已经学习了各种频率和方向选择性核,以及各种彩色斑点。请注意两个 GPU 表现出的专业化,这是第 4.5 节中描述的连接受限的结果。GPU 1 上的内核在很大程度上与颜色无关,而 GPU 2 上的内核在很大程度上是颜色相关的。这种专用化发生在每次运行期间,并且独立于任何特定的随机权重初始化(以 GPU 的重新编号为模)。

在图 4 的左侧面板中,我们通过计算网络对 8 张测试图像的前 5 名预测来定性评估网络所学到的内容。请注意,即使是偏离中心的物体,例如左上角的螨虫,也可以被网络识别。大多数前 5 名标签看起来都是合理的。例如,只有其他类型的猫被认为是豹子的合理标签。在某些情况下(格栅、樱桃),照片的预期焦点确实存在模糊性。
探测网络视觉知识的另一种方法是考虑图像在最后一个 4096 维隐藏层诱导的特征激活。如果两个图像产生具有较小欧几里得间隔的特征激活向量,我们可以说神经网络的更高级别认为它们是相似的。图 4 显示了测试集中的五张图像和训练集中的六张图像,根据该度量与每张图像最相似。请注意,在像素级别,检索到的训练图像在 L2 中通常与第一列中的查询图像不接近。例如,取回的狗和大象以各种姿势出现。我们在补充材料中提供了更多测试图像的结果。
使用两个 4096 维实值向量之间的欧几里得距离计算相似性效率低下,但可以通过训练自动编码器将这些向量压缩为短二进制代码来提高效率。这应该会产生比将自动编码器应用于原始像素更好的图像检索方法,它不使用图像标签,因此倾向于检索具有相似边缘模式的图像,无论它们在语义上是否相似。
8. 讨论(Discussion)
我们的结果表明,一个大型、深度的CNN能够使用纯监督学习在极具挑战性的数据集上取得破纪录的结果。值得注意的是,如果删除单个卷积层,我们的网络性能会下降。例如,删除任何中间层都会导致网络的前 1 级性能损失约 2%。因此,深度对于实现我们的成果非常重要。
为了简化我们的实验,我们没有使用任何无监督预训练,尽管我们期望它会有所帮助,特别是如果我们获得足够的计算能力来显着增加网络的大小,而没有获得相应增加标记数据量。到目前为止,随着我们使网络变得更大并训练得更长,我们的结果有所改善,但为了匹配人类视觉系统的下时间通路,我们还有许多数量级的路要走。最终,我们希望在视频序列上使用非常大和深的卷积网络,其中时间结构提供了非常有用的信息,即静态图像中缺失或不那么明显。
更多推荐

所有评论(0)