计算机视觉度量指标教程（二）

光谱:本地双星特征形状:以兴趣点为中心的正方形特征模式:随机局部像素点对比较特征密度:兴趣点局部 31x31搜索方法:滑动窗口距离函数:汉明距离鲁棒性:2(亮度、对比度)圆球ORB [134]是 Oriented BRIEF 的首字母缩写词，顾名思义，ORB 基于 BRIEF，并通过使用 FAST9 确定角点方向，然后使用 Harris 角点度量对关键点进行排序，从而为 BRIEF 添加旋转不变性

布客飞龙

2064人浏览 · 2024-08-22 15:31:15

布客飞龙 · 2024-08-22 15:31:15 发布

原文：Computer Vision Metrics

协议：CC BY-NC-SA 4.0

四、局部特征设计概念、分类和学习

科学，我的孩子，是由错误组成的，但这些错误是有益的，因为它们会一点一点地通向真理

*—儒勒·凡尔纳，*地心之旅

在这一章中，我们研究了与局部特征描述符设计相关的几个概念，即局部模式、形状、光谱、距离函数、分类、匹配和对象识别。主要焦点是*局部特征度量，*如图图 4-1 所示。本讨论遵循将在第五章中介绍的一般视觉分类法，包括理解兴趣点检测器和特征描述符的关键基础，如将在第六章中调查的，包括检测器和描述符方法共有的选定概念。请注意，修改以及混合和匹配检测器和描述符以获得最佳结果的机会总是存在的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-1 。愿景流水线中的各个阶段；本章将关注局部特征度量和分类及学习

地方特色

我们关注于局部特征描述符的设计，以及它们如何用于训练、分类和机器学习。讨论遵循第五章中提出的特征分类法，如图图 5-1 所示。主要元素有:(1) 形状(例如长方形或圆形)；(2) 模式(密集采样或稀疏采样)；以及(3) 光谱(二进制值、标量、稀疏码或其他值)。密集模式特征将使用局部区域中的每个像素，例如矩形中的每个像素，而稀疏特征将仅使用该区域中的选定像素。

除了形状和图案的许多方法之外，还有许多用于光谱的方法，从基于梯度的补丁方法到稀疏局部二进制图案方法。这里涉及的主要主题包括:

探测器，用于定位图像中感兴趣的特征。
描述符，用于描述感兴趣特征周围的区域。
描述符属性，如特征鲁棒性和不变性。
分类，用于创建特征和最佳特征匹配的数据库。
识别，用于将目标图像中检测到的特征与训练好的特征进行匹配。
特征学习，或机器学习方法。

基于本章介绍的概念，第五章中提供的视觉分类法提供了一种总结和分析特征描述符及其属性的方法，从而能够在不同方法之间进行有限的比较。

检测器、兴趣点、关键点、锚点、地标

一个探测器 在图像中发现有趣的特征。文献中讨论“感兴趣的特征”的术语包括几个可互换的术语，如关键点、界标、兴趣点、或锚点，所有这些术语都是指诸如角点、边缘或图案之类的能够以高可能性重复发现的特征。在第六章的中，我们将探讨许多探测器方法，以及各种设计方法。在某些情况下，关键点检测器用于确定周围特征描述符的方向向量，例如，通过计算拐角的整体梯度方向。不确定或低质量的关键点通常在特征描述之前被过滤掉。注意，许多关键点方法在较小的像素区域上操作，例如 LBP 的 3x3 和 FAST 的 7x7。

关键点位置本身可能不足以进行特征匹配；然而，这里讨论的一些方法仅依赖于*关键点，*没有特征描述符。特征描述提供了关于每个关键点的更多信息，并且可以在更大的区域和多个尺度上计算，例如 SIFT 和 ORB。

描述符、特征描述、特征提取

可以在每个关键点计算特征描述符??，以提供关于关键点周围像素区域的更多信息。然而，在跨固定大小像素网格计算特征的方法中，例如 Viola Jones 方法[146]，不需要兴趣点，因为网格定义了描述符区域。特征描述通常使用颜色或灰度强度通道的某种组合，以及诸如梯度和颜色的局部信息。特征描述发生在形状上，例如正方形或圆形。在某些情况下，像素点对样本模式用于计算或比较选定的像素值，以产生一个描述符向量——例如，如稍后在图 4-8 中所示。

通常，兴趣点提供一定程度的不变性和鲁棒性，例如，在缩放和旋转方面。在许多情况下，描述符的方向是从兴趣点确定的，并且描述符提供了其他不变性属性。将兴趣点与描述符相结合提供了更大的不变性属性集。并且如果来自同一对象的几个描述符相关联在一起，则对象识别是可能的。

例如，描述符可以包含在几个强度通道、多个几何尺度和多个视角上计算的多元、多维和多几何量。一个多元描述符可以包含 RGBD 数据(红色、绿色、蓝色和 Z 深度数据)；多维描述符可以包含图像金字塔中不同缩放级别的特征描述；并且多几何描述符可以包含跨局部图像块或区域的仿射变换计算的一组特征描述。

设计功能的方法没有对错之分；采取了许多方法。例如，包括对象的区域形状、区域纹理和区域颜色的一组度量在定位水果的应用中可能是有帮助的，而另一个应用可能不需要颜色或形状，而是可以依赖于兴趣点、特征描述符及其空间关系的集合。事实上，将几个较弱的描述符方法组合成一个多元描述符通常是最好的方法。

从图像中计算特征描述符通常被称为特征提取。

稀疏局部模式方法

虽然一些方法在整个图像的规则采样网格内密集地描述特征，例如在第六章中讨论的 PHOG [191]方法，但是其他方法，例如 FREAK [130]使用稀疏局部模式对锚定在兴趣点的像素进行采样，以创建描述符。根据不同的方法，可以通过设计来训练、学习或选择形状，并且目前使用许多形状和图案的拓扑结构。

为了构建关于稀疏局部模式和描述符方法的讨论，请注意与全局和区域描述符方法的对比，后者通常而不是依赖于稀疏局部模式。相反，全局和区域方法通常使用较大形状(如矩形或其他多边形)的密集采样。例如，多边形形状描述符，如将在第六章中讨论的，可以使用密集方法(如数学形态学和区域分割)描绘或分割特征区域。在第三章中讨论的全局和区域描述符度量，如纹理度量、直方图或 SDM，通常是在内聚的密集区域而不是稀疏区域中计算的。

局部特征属性

这一部分讨论了如何选择特征来提供特征良好性的期望属性，例如不变性和健壮性。

选择特征描述符和兴趣点

必须选择兴趣点检测器和特征描述方法一起工作，并且对于正在处理的图像类型工作良好。对于检测器和描述符对，必须考虑鲁棒性属性，例如对比度、比例和旋转。如附录 A 所示，每个兴趣点检测器都是为寻找特定类型的特征而设计的，因此没有一种方法适用于所有类型的图像。

例如，FAST 和 Harris 方法通常找到许多小的单尺度兴趣点，而其他方法，如 SIFT 中使用的方法，找到更少、更大和微调的多尺度兴趣点。期望对感兴趣点检测器参数进行一些调整，以便使它们能够工作，或者可能需要对图像进行一些预处理，以帮助检测器首先找到感兴趣点。(第六章提供了兴趣点方法和背景数学概念的概述。)

特征描述符和特征匹配

特征描述是特征匹配 的基础，导致图像理解、场景分析和物体跟踪。特征匹配中的中心问题包括如何确定一个特征是否与其他相似特征相区别，以及该特征是否是更大对象的一部分。

由于许多原因，确定特征匹配的方法是关键的；这些原因包括计算成本、内存大小、可重复性、准确性和鲁棒性。虽然完美匹配是理想的，但在实践中，相对匹配是由距离函数确定的，其中输入的特征描述符集与已知的特征描述符进行比较。但是我们将在本章后面讨论几个距离函数。

善良的标准

可以一次对一个属性进行测量。稍后在表 4-2 中提供了特征地标的良好属性的一般列表。请注意，这个列表主要是关于不变性和健壮性:这些是关键概念，因为性能可以使用各种优化方法来调整，正如将在第八章中讨论的。当然，在一个给定的应用中，善良的一些属性比其他的更重要；这将在第七章的中结合真实情况数据进行讨论。

我们如何知道一个特性对于应用来说是好的呢？我们可以将讨论分为兴趣点方法和描述符方法，以及两者提供的组合鲁棒性和不变性属性(见表 4-1 )。特征锚定的兴趣点至关重要，因为如果锚定不好且无法轻松重复地找到，则生成的描述符将在次优位置计算。

表 4-1 。好的特征描述符和兴趣点的一些属性。(一般鲁棒性标准参见图 5-2 )

良好的特性度量属性

细节

请注意，在许多情况下，图像预处理是创建良好特征的关键 ( 图 4-1 )。如果图像数据存在可以纠正或改进的问题，则应在图像预处理之后进行特征描述。请注意，许多特征描述方法依赖于描述符创建期间的局部图像增强，例如关键点周围区域的高斯模糊以消除噪声，因此图像预处理应该补充描述符方法。每种预处理方法都有缺点和优点；图像预处理信息参见表 2-1 和第二章。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-2。(左)在原始图像上计算的 SURF 特征描述符。(右)在特征提取之前，已经使用直方图均衡化对图像进行了预处理，因此发现了一组不同但重叠的特征

可重复性，容易还是难发现

理想情况下，该特征在图像中容易找到，这意味着该特征描述包含足够的信息，在各种条件下(如表 4-1 所示)都是鲁棒的，例如对比度和亮度变化、比例和旋转。重复性特别适用于兴趣点检测，因此兴趣点检测器方法的选择至关重要。(附录 A 包含显示几种常见兴趣点检测器有趣的不可重复异常的示例图像。)

一些描述符，如 SIFT [161，178]，已知在许多成像条件下是鲁棒的。这并不令人惊讶，因为 SIFT 被设计为在多个维度上进行区分，例如尺度和旋转，使用精心组成的局部区域梯度集，并应用加权因子来增加靠近特征中心的梯度的重要性。但是鲁棒性和可重复性是以计算成本为代价的。SIFT [161，178]是计算量最大的方法之一；然而，第六章调查了各种 SIFT 优化和变化。

明显与不明显

描述符在以下情况下是独特的:

该特征可以与图像的其他类似特征区域相区别。
不同的特征向量在特征集中是唯一的。
使用合适的距离函数可以有效地匹配该特征。

如果不能区分相似的特征，则特征是模糊的；这可能是由于缺少合适的图像预处理、描述符中的信息不足或者为匹配阶段选择的距离函数不合适造成的。当然，将信息添加到更简单的描述符中以使描述符成为混合多元或多尺度描述符可能是提高独特性所需要的全部。例如，可以添加颜色信息来区分肤色。

相对和绝对位置

位置信息(如坐标)对于要素的良好性至关重要。例如，为了使用对人眼的角位置的约束将特征关联在一起，需要兴趣点坐标。作为智能匹配过程的一部分，通过使用眼角位置之间的距离和角度，这些能够更准确地识别和定位眼睛。

随着深度传感器的使用越来越多，简单地在描述符本身中提供特征的 Z 或深度位置可能足以容易地将特征与背景区分开。深度场中的位置是一种强有力的信息，并且由于计算机视觉通常涉及在 2D 图像场中寻找 3D 信息，因此 Z 深度信息可以是特征良好性的无价属性。

匹配成本和对应关系

特征匹配是使用距离函数(本节接下来讨论的)测量两个或多个特征之间的对应性。请注意，特征匹配在内存和计算时间方面是有代价的。例如，如果特征描述符由 8 位字节的数组组成，例如 18×18 像素相关模板，则特征匹配成本是将两个 18×18(324)像素区域相互比较所需的计算时间和存储器，其中使用的匹配方法或距离函数可以是 SAD、SSD 或类似的差异度量。另一个例子涉及本地二进制描述符，例如 LBP(线性二进制模式)，其被存储为比特向量，其中匹配成本是执行汉明距离函数的时间，汉明距离函数通过布尔 XOR 比较两个二进制向量来操作，随后是比特计数以提供匹配度量。

通常，距离函数是应用于计算机视觉的众所周知的数学函数；然而，就可计算性和对特定视觉任务的应用而言，一些比另一些更适合。例如，SSD、SAD、余弦距离和汉明距离度量由于其广泛的适用性，已经在一些架构中作为计算机机器语言指令在硅中实现。因此，选择一个在硅中加速的距离函数可能是一个优势。

特征数据库是匹配成本的另一个组成部分，因此数据库的组织和特征搜索对成本有贡献。我们将在本章后面简要地谈到这个话题。

距离函数

本节提供了用于聚类、分类和特征匹配的距离函数的一般讨论。注意，距离函数可以在几个维度上取值，例如，用于特征描述符匹配的 2D 图像阵列，用于点云匹配的 3D 体素体积，以及用于多元描述符的多维空间。由于这是一个简短的概述，Pele[548]提供了更深入的治疗。

注意，本章后面讨论的核机器[361，362]提供了一个自动框架来分类特征空间和替换选择的距离函数核。

距离函数的早期工作

1968 年，Rosenfeld 和 Pfaltz[121]开发了确定图像特征之间距离的新方法，他们称之为“图片的给定子集”，其中他们工作中使用的特征形状包括菱形、正方形和三角形。他们研究的距离度量包括一些今天不再常用的方法:

离单点的六边形距离(笛卡尔阵列)
单点的六边形距离(交错阵列)
离单点的八边形距离
城市街区与空白区域的距离
空白区域的平方距离
距离空白区域的六边形距离
离空白区域的八角形距离
从一个点到欧几里得距离的最近整数

Rosenfeld 和 Pfaltz 的这项早期工作非常有趣，因为用于渲染图像的输出设备是打印在 CRT 终端或行式打印机上的 ASCII 字符，如图 4-3 所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-3 。Rosenfeld 和 Pfaltz 的早期渲染图，使用行式打印机作为输出设备来说明距离函数(在本例中为平方距离)。(图片转载自 Rosenfeld 和 Pfaltz，《模式识别》(牛津:佩加蒙出版社，1968)，1:33-61。经爱思唯尔许可使用)

欧几里德或笛卡尔距离度量

欧几里德距离度量包括笛卡尔坐标空间中的基本欧几里德几何恒等式；总的来说，这些都是简单明了的用法。

欧几里德距离

这是两点之间的简单距离。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

平方欧几里德距离

这样计算速度更快，并且省略了平方根。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

余弦距离或相似度

这是角距离，或两个向量之间的归一化点积，以产生向量角度的相似性；也适用于 3D 曲面法线和视点匹配。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

绝对差值之和(SAD ) 或 L1 常模

矢量元素之间的差被求和，并作为矢量之间的总距离。注意 SAD 相当于曼哈顿距离。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

平方差和(SSD) 或 L2 范数

向量元素之间的差被求和并被平方，并被取为向量之间的总距离；通常用于运动估计的视频解码。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

相关距离

这是两个向量之间的相关差系数，类似于余弦距离。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

更长的距离

欧几里得距离的有效替代，为直方图类型的距离度量产生更好的性能和准确性，如 SIFT 的 rootsif[178]优化中所报告的。对于 L1 归一化直方图矢量，海灵格距离被定义为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

网格距离度量

这些度量类似于网格上的路径来计算距离。因此，距离是以网格步长测量的。

曼哈顿距离

也称为城市街区差异或直线距离，它通过沿着网格的路径来测量距离；沿着一个网格可能有多条距离相等的路径。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

切比雪夫距离

也称为棋盘差异，这是测量两个向量之间沿网格的最大差异。请注意，在下图中，三角形的每条边的切比雪夫距离或长度为 5，但在欧几里得空间中，其中一条直线(斜边)比其他直线都长。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

统计差异度量

这些度量基于向量的统计特征，因此距离度量不需要映射到欧几里得空间。

运土车距离或或

土方距离测量将多维向量(如直方图)转换为另一个向量的成本。这类似于一台推土机(推土机)在两组堆之间移动泥土，使每组中的泥土堆大小相同。EMD 假设矢量中的要素之间存在地面距离，例如直方图中条柱之间的距离。EMD 被计算为变换的最小成本，其整合了移动的距离 d *移动的量 f ，服从一些约束【130】。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一旦计算出成本，结果就被标准化了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

EMD 具有高计算成本，且可用于图像分析，但是 EMD 不是用于特征匹配的有效度量。

马氏距离

也称为二次距离，它使用均值和协方差计算距离；它是比例不变的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 =特征向量 1 的平均值， =特征向量 2 的平均值。

布雷柯蒂斯距离

这相当于绝对差之和与和之比，例如曼哈顿距离的范数之比。Bray Curtis 相异度有时用于聚类数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

堪培拉距离

它测量两个等长向量之间的距离:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

二进制或布尔距离度量

这些度量依赖于集合比较和布尔代数概念，这使得该度量族对于数字计算机上的优化很有吸引力。

l0 定额

L0 范数是向量中非零元素的计数，用于汉明距离度量和其他二进制或布尔度量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

汉明距离

这测量相等长度的向量之间的二进制差异或一致性，例如，字符串或二进制向量。二进制位向量的汉明距离可以在数字计算机中用完整的机器语言指令或者作为 XOR 运算后跟位计数运算来有效地实现。汉明距离是匹配本地二进制描述符的首选，如 LBP、FREAK、CENSUS、BRISK、BRIEF 和 ORB。

串距:5 = 0001100111 = compare " HelloThere和" Hel ps Th ing

二进制距离:3 = 10100010 =(01001110)异或(11001100)

**(u XOR v)**的位计数

Jaccard 的相似性和不相似性

二元集合(0，1 或真，假)的两两相似性与集合元素个数的比率。下面的集合 1 包含具有与集合 2 相同的成对值的两个比特，因此相似度是 2/5，相异度是 3/5。Jaccard 相似度可以结合汉明距离。

| | *设置 1:* | {1,0,1,1,0} | | | *设置 2:* | {1,1,0,1,1} | | | *Jaccard 相似度:* | 2 / 5 = .4 | | | **Jaccard 不同点:** | **3 / 5 = .6** |

描述符表示

本节讨论如何在描述符中表示信息，包括对特征描述和匹配有用的坐标空间，并讨论多模态数据和特征金字塔。

坐标空间，复杂空间

计算机视觉中使用的坐标系有很多，因此能够在坐标系之间转换数据是很有价值的。坐标空间类似于基空间。通常，选择正确的坐标系有利于特征表示、计算或匹配。复杂空间可以包括标量和矢量变量的多元集合，例如像素区域的梯度、颜色、二进制模式和统计矩。参见图 4-4 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-4 。坐标空间，笛卡尔空间、极坐标空间、径向空间和球面空间

笛卡尔坐标

图像通常是在笛卡尔空间的时域中捕获的，并且对于许多应用来说，需要转换到其他坐标空间。人类视觉系统将世界视为复杂的 3D 球面坐标空间，人类可以通过一个小小的奇迹，将 3D 空间映射到近似或相对的笛卡尔坐标中。计算机成像系统捕捉数据并将其转换为笛卡尔坐标，但深度感知和几何精度在转换中丢失。(第一章讨论了深度传感方法和 3D 成像系统，包括几何因素。)

极坐标和对数极坐标

第六章稍后提到的许多描述符使用圆形描述符区域来匹配人类视觉系统。因此，极坐标是组合特征向量的逻辑候选者。例如，GLOH [144]方法对直方图梯度宁滨使用极坐标，而不是原始 SIFT [161]方法中使用的笛卡尔坐标。GLOH 可以用作 SIFT 的改型，并已证明可以提高准确性[144]。由于圆形采样模式往往提供更好的旋转不变性，极坐标和圆形采样是描述符设计的良好匹配。

径向坐标

RIFF 描述符(稍后在第六章的中描述)使用局部径向坐标系来描述旋转不变的基于梯度的特征描述符。径向坐标系基于径向梯度变换(RGT ),该变换对不变宁滨的矢量进行归一化。

如图图 4-4 和图 6-27 所示，RGT 在面片区域 *c，*内建立一个局部坐标系，并建立相对于面片上任意一点 p 的两个正交基向量( r，t )，径向向量为 r ，切向向量为 t 。在所有点 p 处测量的梯度 g 被投影到径向坐标系( r，t )上，使得梯度以相对于小块中心的兴趣点 c 局部不变的方式被表示。当面片围绕 c 旋转时，梯度也旋转，不变表示保持不变。

球面坐标

球面坐标，也称为 3D 极坐标，可以应用于 3D 成像和深度感测领域，以增加描述和分析的准确性。例如，今天的深度相机通常只为每个样本提供( x，y) 和 Z 深度信息。然而，遗憾的是，这不足以描述空间的复杂几何形状，包括翘曲、径向扭曲和样本之间的非线性距离。第一章讨论了 3D 空间、深度测量和坐标系统的复杂性。

仪表坐标

G-SURF 方法[188]使用局部区域规范坐标系的微分几何概念[190]来计算特征。仪表坐标对于图像特征是局部的，并且它们具有几何精度的优势。规范导数是旋转和平移不变的。

多元空间，多模态数据

多元空间结合了几个量，比如结合了标量和向量值的张量空间，常用于计算机视觉。虽然原始图像数据可能只是标量值，但是许多特征描述符计算每个像素的局部梯度，因此像素标量值和梯度向量的组合形成了张量或多元空间。例如，色彩空间(参见第二章)可以将色彩表示为一组标量和矢量，例如图 2-9 中所示的色调、饱和度和值(HSV)色彩空间，其中矢量包括 HS ，其中 H 色调作为矢量角度， S 饱和度作为矢量幅度。 V 是另一个有两个用途的矢量，首先作为轴原点的 HS 矢量，其次作为颜色强度或灰度矢量 V 。为了便于分析，将原始的 RGB 数据转换到这样的颜色空间通常是有用的，例如，能够统一地改变所有颜色的颜色强度，从而影响亮度或对比度。

一般来说，通过增加特征空间的维度，可以增加更多的区分度和鲁棒性。例如，稍后在第六章中描述的 LBP 模式可以通过添加旋转不变表示(RILBP)等特征扩展成多个变量；或者通过在 RGB 彩色通道上复制 LBP，如彩色 LBP 描述符中所示；或者通过将 LBP 模式扩展到时空 3-空间，像 LBP-TOP 那样增加几何失真不变性。

随着内置 GPS、指南针、温度、高度计、惯性和其他传感器的移动设备的激增，多模式传感器数据变得越来越普遍。多模态、多变量描述符的一个例子是 SIFT-GAFD [245]方法，如图 4-5 中的所示，它以重力矢量的形式将加速度计信息添加到 SIFT 描述符中。重力矢量称为全局方向，SIFT 局部像素区域梯度称为局部方向。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-5 。在 SIFT-GAFD 方法[245]中使用的特征描述符中，使用重力矢量形式的加速度计数据的多模态描述符。全局定向的重力矢量可以用于相对于环境的特征定向

特征金字塔

许多特征描述符仅使用给定尺度的像素值以单尺度方式计算，然后为了特征检测和匹配，在尺度空间图像金字塔中搜索特征。然而，通过在多个尺度下计算描述符并将多个缩放的描述符一起存储在特征金字塔中，可以在具有尺度变化的单尺度图像上检测特征，而无需使用尺度空间金字塔。

对于兴趣点和特征描述符方法，尺度不变性可以通过以下方式解决:(1)在搜索之前缩放图像，如在本章稍后讨论的尺度空间金字塔方法中；或者(2)缩放和金字塔化描述符中特征的多个尺度。由于基于形状的方法依赖于更大的多边形结构和形状度量，因此基于形状的方法本质上比兴趣点和特征描述符方法更具有比例不变性。

描述符密度

根据图像数据，会有不同数量的良好兴趣点和特征，因为一些图像具有更明显的纹理。并且取决于所使用的检测器方法，具有高纹理结构或更宽像素强度范围差异的图像将可能比具有低对比度和平滑纹理的图像产生更多的兴趣点。

一个好的经验法则是，图像中 0.1%到 1%的像素可以产生原始的、未经过滤的兴趣点。FAST 和 Harris 探测器系列等更灵敏的探测器位于该范围的高端(参见附录 A )。当然，检测器参数经过调整，可以减少每个应用中不必要的检测。

兴趣点和描述符剔除

事实上，即使兴趣点看起来不错，在兴趣点计算的相应描述符可能不值得使用，并且在某些情况下会被丢弃。兴趣点和描述符都被剔除。因此，一起调整检测器和描述符是关键的试错过程。使用我们产生有效原始兴趣点的 0.1%到 1%像素的基本假设，我们可以根据视频分辨率估计可能检测到的兴趣点，如表 4-2 所示。

表 4-2 。每幅图像检测到的兴趣点的可能范围

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

根据方法的不同，检测器可以仅在单尺度下运行，或者在图像金字塔尺度空间中的一组尺度图像上运行。对于尺度空间搜索方法，兴趣点检测器在金字塔中每个图像的每个像素上运行。有哪些方法可以用来剔除兴趣点，将兴趣点密度降低到一个可管理的数量？

选择最佳兴趣点的一种方法是使用自适应探测器调谐方法 (如第六章“兴趣点调谐”中所述)。其他方法包括仅选择相距给定阈值距离的兴趣点，例如，一个兴趣点不能与五像素窗口内的另一个兴趣点相邻，最佳候选点在阈值内选择。

另一种方法是改变本章中讨论的搜索策略，例如，在图像金字塔的较低分辨率下搜索特征，识别最佳特征，并记录它们的位置，或者在金字塔的较高层次上搜索以确认特征位置，然后计算描述符。最后一种方法的缺点是默认情况下会丢失精细特征，因为这些特征可能只在全图像分辨率下出现。

另一种方法是每隔一个像素或者在网格大小的区域内寻找兴趣点。以上方法在实践中都有使用，除此之外还有其他方法。

密集与稀疏特征描述

一个密集描述符利用了区域或小块中的所有像素。“密集”是指内核采样模式包括所有像素，因为稀疏内核可以选择使用或忽略特定像素。SIFT 和 SURF 是密集描述符的经典示例，因为矩形区域中的所有像素都对描述符计算有贡献。

许多特征描述方法，尤其是局部二进制描述符方法，正在利用稀疏模式，其中从一个区域而不是所有像素中选择像素。FREAK 描述符通过模拟人类视觉系统、使用圆形搜索区域、利用更靠近区域中心的更精细分辨率采样，以及调整分辨率增加的局部采样模式的层次结构以获得最佳结果，展示了稀疏采样的最巧妙方法之一。稀疏特征不仅可以潜在地使用更少的内存和减少计算，而且稀疏描述符可以扩展到更广的区域，以补偿较小区域中出现的特征异常。

描述符形状拓扑

对于这一讨论，我们着眼于调查用于描述符计算的像素区域的各种形状来查看描述符形状拓扑。拓扑的一部分是形状或边界，另一部分是选择密集还是稀疏采样模式，这将在本章后面讨论。采样和图案化方法的范围从简单的矩形区域到更复杂的稀疏局部二进制描述符图案。正如将在第六章中讨论的，2D 和 3D 描述符都被设计成使用广泛的拓扑结构。让我们来看看一些拓扑设计的考虑因素，如面片形状、子面片、条带和可变形面片。

哪种形状比较好？答案是主观的，我们不试图提供绝对的答案，只是提供一个调查。

关联模板

一个明显的形状是相关模板匹配方法通常使用的简单矩形区域。因此，描述符是模板区域中的*面部照片、*或实际图像。要选择矩形内的子空间，可以使用遮罩，例如，它可以是边界矩形内的圆形遮罩，以遮蔽外围像素。

补丁和形状

文献通常将特征形状称为片，通常假定为矩形。由于易于编码 2D 阵列存储器访问，补丁形状通常是矩形的。圆形面片广泛应用于局部二进制描述符方法中。

然而，许多描述符也计算多个面片或区域的特征*，而不仅仅是单个面片。以下是补丁拓扑的一些常见变体。*

单个补丁、子补丁

许多描述符将补丁计数限制为单个 2D 补丁。这是第六章中调查的大多数常见描述符的真实情况。然而，一些局部二进制描述符在较大块内的特定点处使用一组积分图像子块——例如，BRIEF 在较大 31×31 像素块区域内的局部二进制模式中的每个采样点处使用 5×5 积分图像子块，因此每个子块的值成为用于点对比较的值。目标是过滤每个点的值以去除噪声。

可变形贴片

不是使用诸如固定大小的矩形或圆形的刚性形状，而是可以在考虑变形的情况下设计特征描述符，诸如比例变形[345，346]和仿射或单应变形[220]，以实现更鲁棒的匹配。示例包括 DeepFlow [344，394]深度匹配方法和 RFM2.3，这将在第六章的中讨论。此外，使用全连接或稀疏连接拓扑的 D-NETS [135]方法可以被认为在条形图案的放置的不变性方面是可变形的；参见图 4-7 和第六章中 D 网的讨论。本章稍后讨论的许多特征学习方法也使用变形特征进行训练。

固定的描述符形状，例如刚性矩形和圆形，可以在刚性运动假设下检测运动，其中整个描述符预期以一定量的变化移动，例如在缩放或仿射变换中。然而，对于活动识别和运动，需要更可变形的描述符模型，而 DeepFlow [344，394]弥合了描述符匹配方法和光流匹配方法之间的差距，使用可变形面片和沿着深度学习网络的线进行深度匹配。

多补丁集

SIFT 描述符使用从尺度空间金字塔结构中获取的相邻狗图像的三个面片的多面片集合，如图 6-15 所示。其他几种方法，如图 6-12 中所示的 LBP-TOP 和 VLBP，使用跨卷结构分布的补丁集。LBP-TOP 使用来自相邻平面的面片，而 VLBP 使用三维空间中的相交面片。动态纹理方法使用来自时空图像帧集合的三个相邻片的集合，作为帧 n-2、帧 n-1 和帧 0(当前帧)。

TPLBP，FPLBP

三片 LBP TPLBP 和四片 LBP FPLBP [244]利用新颖的多片采样模式将稀疏局部结构添加到复合 LBP 描述符中。如图 4-6 所示，三补片 LBP 使用由三个补片交替组合而成的一组径向 LBP 模式，而四补片 LBP 使用更大范围内更为分散的补片对。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-6 。Wolf 等人开发的新型多补丁集。阿尔[244]。(左)TPLBP 比较环周围三个补丁集合的值，以计算 LBP 代码，总共八个集合，因此每个 LBP 位有一个集合。(右)四补丁 LBP 使用四个补丁来计算比特，使用来自每个环的两个对称分布的补丁来产生 LBP 代码中的每个比特。每个环的半径是一个变量，面片对是一个变量，每个环的面片数是一个变量；这里，每个环有八个补丁

带状和放射状扇形形状

源自特征兴趣点位置或形状质心的辐射状扇形或轮辐可用作描述符采样拓扑——例如，傅立叶形状描述符(如第六章中所述；特别参见图 6-29 。

d-网条形图案

由 Hundelshausen 和 Sukthankar[135]开发的 D-NETS 方法使用了一种连通图形状的描述符模式，其采样模式可能存在变化。作者建议该方法使用三种不同的模式是有效的，如图图 4-7 所示:

兴趣点处的全连通图
兴趣点处的稀疏或迭代连通图
所选网格上的密集采样图

描述符本身由一组 *d-tokens，*组成，这些 d-tokens 是原始像素值的条带，而不是来自修补区域的值:条带是区域，各种方向的线是图案。沿着条带的采样是在条带长度的 80%和 20%之间，而不是整个长度，省略端点，这被声称是为了减少噪声兴趣点的贡献。被采样的点被组合成一组 s 的均匀像素块，并被归一化和存储到离散的 d-token 描述符中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-7 。D-NETS [135]采样模式的降低分辨率示例。(左)兴趣点的全密集连接。(中心)兴趣点处的稀疏连通性。(右)规则采样网格上的密集连通性。D-NETS 的作者指出，10 像素间距的密集采样网格优于在感兴趣的点进行采样

物体多边形形状

对象和多边形形状方法进行全局和区域扫描，以在整个图像帧或区域中查找形状。目标是找到一个有凝聚力的物体或区域。这里提供了对用于特征描述符的分割多边形形状的基本方法的讨论，包括:

形态学对象边界方法
纹理或区域结构方法
超像素或像素相似性方法
深度图分割

第六章详细介绍了一系列用于统计描述多边形形状特征的对象形状因子和度量。请注意，这个主题在文献中经常被讨论为“图像时刻”；Flusser 等人[518]是一个很好的信息来源。

形态边界形状

定义多边形形状的一种方法是使用形态学。形态学分割是区域描绘的常用方法，无论是作为二进制对象还是作为灰度对象。形态形状有时被称为斑点。在二进制和灰度级的情况下，阈值处理通常被用作定义对象边界的第一步，并且诸如侵蚀和扩张之类的形态整形操作被用于增长、收缩和清理形状边界。形态学分割是阈值和边缘特征驱动的。(第三章讨论了用于形态学和阈值处理的方法。)

纹理结构形状

区域纹理也用于分割多边形形状。纹理分割是一种常见的用于图像分析和分类的图像处理方法，并且是以非二进制方式进行分割的理想方法。纹理揭示了简单阈值处理忽略的结构。如图图 6-6 所示，LBP 算子可以检测局部纹理，纹理可以用来分割天空、水、陆地等区域。纹理分割基于局部图像像素关系。(在第三章中介绍了几种纹理分割方法。)

超像素相似形状

使用超像素方法分割区域是基于将相似像素折叠在一起的思想，例如，将具有相似颜色的像素折叠在一起形成一个更大的形状。目标是将整个图像区域分割成超像素。超像素方法是基于相似性的。(在第三章的中讨论了几种超像素处理方法。)

局部二元描述符点对模式

局部二进制描述符形状和采样模式，如 FREAK、BRISK、ORB 和 BRIEF 中使用的那些，是为了理解各种权衡和设计方法而研究的好例子。我们将在这里检查局部二进制形状和模式的概念。(第六章对每个描述符进行了更详细的介绍。)

局部二进制描述符使用点对采样方法 ，其中像素对被分配给彼此用于二进制比较。注意，局部二进制描述符和点对比较的缺点是局部区域中图像像素值的微小变化可能表现为二进制伪像。一组像素值中看似微不足道的变化可能会在匹配过程中引起问题，这些问题表现为:(1)有噪声的图像，以及(2)具有恒定灰度级的图像。然而，每个本地二进制描述符方法都试图减轻二进制伪像问题。例如，BRISK(见图 4-10 后面)和 ORB(见图 4-11 后面)计算每个兴趣点周围的过滤区域以在二进制比较之前减少噪声成分。

另一种减轻恒定灰度级的二进制伪像问题的方法用于 LBP 方法的修改，称为局部三进制模式算子，或 LTP 522，它使用 {-1，0，1} 的三进制值来描述区域。为 LTP 建立阈值带，以将近常数灰度值描述为 0，阈值带以上的值描述为 1，阈值带以下的值描述为-1。LTP 可用于描述恒定灰度级的平滑区域和标准 LBP 中的对比区域。此外，可以调整点对的比较阈值，以补偿噪声、光照和对比度，这在几乎所有的局部二进制描述符方法中都采用了。

图 4-8 (左图)显示了一个假想的描述符模式，包括选定的像素作为黑色值，而中间左侧的图像显示了一个带状的形状和模式，其中描述符沿着一组没有特定对称性的线段计算描述符，如 DNETS [135]方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-8 。说明各种描述符模式和形状。(左)稀疏。(中间偏左)网或条。(中间偏右)内核。(右)径向辐条

在图 4-8 中，中右图像显示了一个卷积核，其中指定了过滤器形状和过滤器目标，而右图像是一个斑点形状，使用径向像素采样线，从形状质心开始，到斑点周界结束。注意，可以从包含从质心到周长的每个径向线段的长度的阵列中计算 1D 傅立叶描述符来描述形状，或者可以只保留原始像素值的阵列，或者可以计算 D 网。

可以通过一起使用一个或多个形状和图案来设计特征描述符。例如图 4-8 (左图)中假设的描述符图案，一个图案用于靠近兴趣点的像素，另一个图案用于远离中心的像素，捕捉圆形图案信息，另一个图案覆盖几个极值点。调优采样模式的一个很好的例子是 FREAK 描述符，下面将讨论。

畸形视网膜图案

FREAK [130]描述符形状也在第六章中有详细讨论，它使用基于人类视网膜系统的局部二进制模式，如图图 4-9 所示，其中人类视觉系统中受体细胞的密度在中心较大，随着远离中心而减小。在构建本地二进制描述符时，FREAK 遵循类似的模式，称为粗到细描述符模式，精细细节位于面片中心，粗糙细节向外移动。由粗到细的方法还允许描述符在由粗到细的段中进行匹配。首先匹配粗略的部分，如果匹配足够好，也匹配精细的特征部分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-9 。(左)人类视觉系统在中央凹区域中的受体浓度，具有较小的受体密度，向外移动到 Para 和 Peri 的外围视觉区域。(中心)FREAK [130]局部二进制模式采样区域，在距离中心的六个重叠距离环的每一个中有六个区域，环的大小表示比较点平均区域。(右)反常型点对模式的假设示例

在这个框架中，可以用几种模式构建畸形描述符。对于 FREAK，实际的模式形状和点对是在训练阶段设计的，在该阶段，使用类似于 ORB [134]的方法学习最佳点对模式，以找到具有高方差的点对。该模式仅受训练数据的约束；仅使用了来自 32×31 图像补片区域的 45 个点对。

如图 4-9 所示，比较每个线段末端的点对，使用 16 个字节将比较值集合组成一个二进制描述符向量，描述符集合中包含四个独立的 16 字节由粗到细模式的级联。通常，粗略模式单独有效地拒绝了不良匹配，而更精细的模式仅用于限定最接近的匹配。

轻快的模式

BRISK 描述符[131]点对采样形状是对称的圆形，由排列在四个同心圆环上的共 60 个点组成，如图图 4-10 所示。围绕 60 个点中的每一个点的是以蓝色显示的采样区域，采样区域的大小随着距中心的距离而增加，并且与采样点之间的距离成比例。在采样区域内，高斯平滑被应用于像素，并且在平滑区域上计算局部梯度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-10 。(左)轻快的同心采样网格模式。(中间)短线段对。(右)长距离对。请注意，每个选定点的区域(左图)的大小随着距中心的距离而增加，并且二进制比较是从每个高斯采样圆形区域的中心点计算的，而不是从每个单独的中心点计算的。(中间和右边的图片由乔希·格里森[143]许可使用)

像其他本地二进制描述符一样，BRISK 比较成对的点来形成描述符。点对分为两组:(1) *长线段，*与区域梯度一起用于确定描述符的角度和方向，角度用于旋转描述符区域，然后应用成对采样模式；(2) 短片段，，可以成对比较并组成 512 位二进制描述符向量。

圆球和简短图案

ORB [134]部分基于 BRIEF 描述符[132，133]，因此名字或面向 B rief ，因为 ORB 向 BRIEF 方法添加了面向，并且还提供了其他改进。例如，ORB 还通过使用 Harris 角点方法限定快速角点来改进兴趣点方法，并使用 Rosin 的方法[61]来改进角点方向，以便操纵 BRIEF 描述符来改进旋转不变性(已知 BRIEF 对旋转敏感)。

ORB 还提供了一个非常好的点对训练方法，这是对 BRIEF 的一个改进。简而言之，如图图 4-11 所示，在 31×31 补丁区域内，基于中心点的高斯分布，以随机分布模式指定样本点；选择的采样点数是 256。将选定的样本点对相互比较，以形成二元描述符向量。通过积分图像方法计算每个点的值，以将 5×5 区域平滑成点值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-11 。(左)一个大大降低了点对计数分辨率的圆形图案，使用< 32 个点而不是全部 256 个点。(右)使用随机点对的简单样式模式

为了学习描述符点对采样和比较模式，ORB 使用训练算法来寻找训练集中具有高方差的不相关点，并选择最佳的 256 个点来定义用于创建二进制特征向量的成对采样模式。所以形状和图案是非对称的，如图图 4-11 所示，类似于一些 DNETS 图案。ORB 点对模式依赖于训练数据。

注意在图 4-11 中，一个简单样式图案(右图)使用随机点对。开发人员提出了几种随机化点对的方法[132]。在图 4-11 中显示的圆形图案是基于在一个边界 31×31 图像补片中选择具有高统计方差的点对，其中较小的 5×5 灰度图像补片区域位于所选兴趣点的中心。然后，使用积分图像方法平滑每个 5×5 区域，以产生该点的单个值。

描述符辨别

描述符的区分度如何？所谓的区分度是指描述符能够很好地唯一描述和区分其他特征。取决于应用，需要或多或少的辨别，因此有可能通过提供比有用的更多的信息和不变性来过度描述特征，或者通过限制鲁棒性和不变性属性来不足描述特征。对于一组给定的鲁棒性标准，特征描述符鉴别可能是重要和有趣的，但是在某些情况下，鉴别并不总是要解决的正确问题。

在下面的假设下，可以平衡描述符中增加区分度的需要，有利于使用级联的简单描述符，如相关模板。

假设廉价的大规模并行计算，可变形描述符，如 Taylor 和 Rosin 的 RFM2.3 [220]成为更有吸引力的选择，允许使用简单的弱区分相关模板或像素补丁，并使用 GPU 纹理采样器在硅中实时变形，以进行缩放、仿射和单应变换。使用并行 GPU SIMT/SIMD 计算和卷积内核，可以轻松实现各种姿态变化和光照变化下的匹配和对应。因此，GPU 可以有效地允许简单的相关补丁被扭曲和对比度增强，以用作可变形描述符并与目标特征进行比较。
假设有大量快速而廉价的内存，例如大型内存缓存系统，许多无差别描述符或训练模式可以存储在内存缓存的数据库中。诸如在神经网络和卷积网络中使用的各种加权方案可以被有效地用来实现期望的一致性和质量。此外，在分类器中可以采用其他提升方案，例如 Adaboost 方法，以从弱区分数据中开发强分类器。

总之，根据目标系统，高鉴别特征描述符和简单弱鉴别特征描述符的级联对于给定的应用可能是正确的选择。

光谱鉴别

特征辨别的一个方面是所选择的用于表示特征的描述符光谱或值。我们将光谱简单地称为光谱内或连续谱上的值。仅使用单个光谱的特征描述符(例如强度值的直方图)将对强度分布有鉴别能力，而对其他属性(例如形状或仿射变换)没有鉴别能力。例如，特征描述符可以通过组合诸如 RGB 颜色、深度和颜色强度的局部区域梯度的多变量光谱集来提高辨别水平。

众所周知[248]，人类视觉系统在视网膜上以比例和旋转不变的方式辨别和响应梯度信息，如 SIFT 和许多其他特征描述方法所示。因此，梯度的使用是计算机视觉的常见和优选的光谱。

可以在一系列变量上获得光谱，其中简单标量范围的值只是一种类型的光谱:

灰度强度
颜色通道强度
基本功能域(频域、HAAR 等。)
2D 或 3D 渐变
3D 表面法线
形状因子和形态学测量
纹理度量
面积积分
区域的统计矩
来自局部二进制模式的汉明码

上述光谱类型中的每一种，以及可以列举的许多其他光谱类型，可以被包括在多变量特征描述符中，以增加区分度。当然，所选应用的鉴别要求将指导描述符的设计。例如，使用颜色通道光谱识别水果颜色，使用形状因子识别水果形状，使用纹理度量识别皮肤纹理，识别水果的应用会更有效。

回答歧视问题的一个方法是查看描述符中包含的信息。描述符是否包含光谱的多元集合，覆盖了多少不变性属性，如方向或尺度？

区域、形状和图案辨别

特征描述符的形状和模式是影响辨别的重要维度。根据应用的不同，每种特征形状都有优点和缺点。令人惊讶的是，甚至单个像素也可以用作特征描述符形状(见图 1-7 )。让我们看看歧视的其他方面。

形状和图案可分类如下:

单个像素(接下来讨论单个像素描述方法)
一行像素
像素的矩形区域
多边形形状或像素区域
一种或一组不相连的像素，如视网膜中央凹图案

描述符的形状决定了区分的属性。例如，与圆形描述符相比，矩形描述符将受限于旋转不变性属性。此外，描述符的较小形状将范围限制到较小的区域，并且还限制了比例不变性。描述符区域越大，携带的像素就越多，这可以提高分辨率。

其他几位研究人员已经对描述符形状、像素采样模式、采样区域大小和像素度量进行了调查[128–130]。在本节中，我们将更深入、更广泛地探讨用于特性描述符调整的具体方法，特别关注本地二进制特性描述符，它有望实现低功耗和高性能。

几何辨别因素

形状在很大程度上决定了可能的旋转不变性。例如，矩形形状通常在大约 15 度的旋转辨别中开始下降，而圆形图案通常在旋转变化下表现得更好。注意，通过将一个以上的形状或图案结合到描述符向量中，可以增强任何辨别能力差的形状或图案描述符，并使其更有辨别能力。

Viola Jones 方法中使用的 HAAR 小波之类的形状和图案整合了矩形区域中的所有像素，产生了该区域中所有像素的合成值。因此，在描述符中不包含局部细节图案信息，导致非常有限的局部区域辨别和较差的旋转不变性或辨别。

旋转辨别能力差的另一个例子是矩形相关模板方法，该方法逐个像素地比较两个矩形区域。然而，一些有效的描述符方法使用矩形区域。

一般来说，矩形是旋转不变性的一种限制。然而，SURF 使用确定圆形邻域内的矩形 HAAR 小波特征的主导方向的方法来实现更好的旋转不变性。并且 SIFT 使用一种方法，通过在宁滨阶段期间对矩形区域应用圆形加权函数来提高旋转不变性和准确性。

还应当注意，在目标应用中，具有低区分度的描述符被非常有效地使用，例如用于视频编码中的运动估计的相关方法。在这种情况下，矩形形状与编码问题非常匹配，并且有助于高度优化的固定功能硬件实现，因为在矩形区域中可以很好地捕捉帧到帧的运动，并且对于 30 Hz 的帧速率，帧到帧之间通常几乎没有旋转或比例变化，只有平移。

考虑到这一点，描述符鉴别应该适合应用，因为增加鉴别是以计算和内存为代价的。

特征可视化评估歧视

理解辨别的另一种方式是使用特征描述符本身来仅从描述符信息重建图像，其中我们可以认为描述符的集合是实际图像的压缩或编码版本。图像压缩、编码和特征描述是相关的；参见图 3-18 。接下来，我们研究几个仅从描述符信息重建图像的例子。

基于图像重建的猪判别方法

图 4-12 使用 HOG 描述符可视化重建。细节层次是粗略的，并遵循与 HOG 的预期用途相匹配的线和边结构。HOG 提供的辨别的一个关键方面是在计算描述符之前不对图像使用图像平滑。HOG 的研究表明，平滑图像会导致辨别能力的损失*。Dalal 和 Triggs[106]强调了他们避免图像平滑以保留图像细节的故意意图。*

* 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-12 。通过猪的形象化描述进行辨别。(图片©卡尔·沃德里克，经许可使用。)另请参见“HOGgles:可视化物体探测特征，Carl Vondrick，Aditya Khosla，Tomasz Malisiewicz，Antonio Torralba，麻省理工学院，2013 年 ICCV 会议上的口头报告”

然而，一些研究人员认为，在计算局部区域梯度和边缘等值时，噪声会引起问题，并进一步建议在描述符计算之前通过平滑从图像中消除噪声；这是许多圈子里的传统观念。请注意，有许多方法可以过滤噪声，而不需要诉诸极端的高斯型平滑、卷积模糊和积分图像，这些方法会扭曲图像场。

一些较好的噪声过滤方法包括斑点去除过滤器、等级过滤、双边过滤器和许多其他方法，这些方法在第二章中讨论过。如果输入图像保持原样，或者至少使用了最好的噪声过滤方法，特征描述符将可能对细粒度特征保留更多的辨别能力。

通过局部二值模式的图像重建进行鉴别

如图 4-13 所示，d’Angelo 和 Alahi【127】提供了从 FREAK 和简要的本地二进制描述符重建的图像的可视化。在整个图像上，重建完全从单独的描述符信息中再现。“简短”使用更随机的模式来比较整个区域中的点，而“畸形”使用经过训练的、更中心凹和对称的模式，在靠近区域中心的位置增加细节。d’Angelo 和 Alahi[127]注意到，重建结果类似于原始图像的拉普拉斯滤波版本，这有助于我们理解这些特征的区分似乎在结构上与详细的边缘和梯度信息相关。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-13 。使用 512 个点对使用局部二进制描述符重建的图像。(第一行)简介。(中间一排)随机化怪胎(更类似于 BRIEF)。(最下面一行)使用视网膜中央凹图案图像的二元畸形©亚历山大·阿拉希，经许可使用

d’Angelo 和 Alahi 重建方法[127]从原始图像上计算的一组重叠描述符补片创建图像。为了重建图像，首先使用新颖的方法重建描述符以呈现小块，然后通过对重叠区域进行平均来合并小块以形成图像，其中小块合并大小可以根据需要而变化。例如，注意图 4-13 对左栏中的芭芭拉图像使用 32x32 的补丁，对中间栏中的摄影师使用 64x64 的补丁。还要注意的是，芭芭拉并不像摄影师那样具有同样的辨别力，他的图像包含了更精细的细节。

通过 SIFT 特征的图像重建进行辨别

另一种近似图像重建的方法[105]证明了 SIFT 描述符的辨别能力；参见图 4-14 。本研究的重建方法首先获取一幅包含著名建筑等场景的未知图像，在图像中找到一组 Hessian-affine 区域检测器，提取相关的 SIFT 特征描述符，然后保存 SIFT 描述符周围的一组椭圆图像块区域。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-14 。使用从同一物体的多个视图获取的组合 SIFT 描述符对常见场景进行图像重建，图像© Herve Jegou，经许可使用

接下来，搜索包含相同场景的相似并且希望匹配的图像的图像数据库，以在 Hessian-affine 兴趣点处找到最接近的匹配 SIFT 描述符。然后，获取每个 SIFT 描述符周围的一组椭圆形碎片区域。基于场景的先验感兴趣区域几何参数，将数据库中找到的椭圆面片扭曲成合成图像。

通过堆叠和混合重叠的补片以及通过平滑插值将补片缝合在一起。任何剩余的洞都通过平滑插值来填充。该方法的一个显著结果是证明了图像可以从来自不同方向的不同图像的一组补片重建，因为特征描述符是相似的；并且在这种情况下，SIFT 描述符的区分被很好地展示。

精确度，可跟踪性

准确性可以用特定的特征属性或鲁棒性标准来衡量；参见表 4-1 和表 7-4 。一个给定的描述符可能在一个领域优于另一个描述符，而在另一个领域则不然。在研究文献中，每个新特征描述符的准确性和性能通常是以备用方法 SIFT 和 SURF 为基准的。特征描述符的准确性是使用普遍接受的基础事实数据集来测量的，该数据集被设计来测量鲁棒性和不变性属性。(参见附录 B 中关于标准真实情况数据集的调查，以及第七章中关于真实情况数据集设计的讨论。)

这里重点介绍了一些有用的精度研究，说明了测量描述符和兴趣点精度的一些方法。例如，Mikolajczyk 和 Schmid[144]对早期特征检测器和描述符的准确性和不变性进行了最全面的调查，涵盖了一系列描述符，包括 GLOH、SIFT、PCA-SIFT、形状上下文、旋转图像、海森拉普拉斯 GLOH、互相关、梯度矩、复数滤波器、差分不变量和可控滤波器。

在 Gauglitz 等人[145]的文章中，有针对缩放、平移、旋转、透视失真、运动模糊、静态照明和动态照明的多种特征度量的不变性度量，包括 Harris、Shi-Tomasi、DoG、Fast Hessian、Fast 和 CenSurE，这些在第六章的中讨论。还有一些分类器的度量，包括随机化的树和蕨类植物，这将在本章后面讨论。图 4-15 提供了 Gauglitz【145】中特征检测器和兴趣点准确度的一些视觉比较。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-15 。各种不变性准则下特征描述符的准确性。(摘自 Gauglitz 等人[145]，图片 Springer Science +Business Media，LLC，经许可使用)

回到最近的本地二进制描述符。艾尔。[130]提供了一组比较，其中 FREAK 在特定数据集和 Mikolajczyk 和 Schmid [144]针对视点、模糊、JPEG 压缩、亮度、旋转和比例等属性开发的一组标准的准确性方面优于 BRISK、SURF 和 SIFT。在 Rublee 等人。艾尔。[120]，ORB 显示出比 SIFT、SURF 和 BRIEF 具有更好的旋转不变性。总之，局部二进制描述符在鲁棒性、准确性和计算效率方面被证明是有吸引力的。

精度优化、子区域重叠、高斯加权和池化

采用各种方法来优化特征描述符的准确性，这里讨论几种方法。例如，描述符经常使用重叠的采样模式子区域，如图 4-9 中的异常描述符模式所示。通过重叠采样区域和仔细处理边界，在大多数情况下精确度似乎更好[161，178]。重叠区域直观上是有意义的，因为区域中的每个点都与周围的点相关。对于局部二元模式类型描述符和光谱描述符变体，如 SURF 等[181，144]，特征描述中模式子区域重叠的值似乎是显而易见的。当描述符中使用的采样区域不重叠时，识别率不准确[130]。

高斯加权是另一种提高精度的有效方法，可以减少测量中的噪声和不确定性。例如，SIFT [161，178]描述符将基于高斯的加权因子应用于描述符区域中的每个局部区域梯度，以支持更靠近中心的梯度，并减少更远的梯度的加权。此外，SIFT 加权以圆形对称模式应用，这增加了一些旋转不变性；参见图 6-17 。

注意，高斯加权不同于高斯滤波；高斯滤波器既减少了噪声，又消除了图像中的关键细节，但这种滤波在 HOG 方法中被发现是适得其反的[106]。诸如 SIFT 在梯度箱上使用的高斯加权因子可以简单地用于限定数据而不是改变数据。一般来说，加权因子可用于缩放结果并微调检测器或描述符。采样模式中的子区域重叠和高斯加权方案是互补的。

通过将邻近要素组合在一起，而不仅仅是单个要素，可以提高精度。例如，在卷积网络中，几个附近的特征可以被汇集用于联合决策，以通过选择的鲁棒性或不变性标准来增加准确性[347]。汇集概念在文献中也可以称为邻域一致性或半局部约束，它可以涉及联合约束，例如局部特征组合集之间的角度和距离【348–350】。

亚像素精度

一些描述符和识别方法可以在匹配特征位置时提供亚像素精度[147–151]。计算亚像素精度的常用方法包括互相关、和绝对差、高斯拟合、傅立叶方法、刚体变换和 ICP。一般来说，亚像素精度在流行的商业应用中并不常见，只有工业检测、航空航天和军事系统等高端应用才需要。

例如，SIFT 为关键点的位置提供亚像素精度。数字相关方法和模板匹配是众所周知的，并被用于对象跟踪的工业应用中，并且可以被扩展以计算一个像素偏移区域范围内的相关性，以产生一组相关性，该组相关性可以被拟合到曲线中并被插值以找到最高匹配，从而产生子像素精度。

亚像素精度通常限于平移。旋转和缩放在亚像素精度方面更难以量化。平移的典型亚像素精度结果仅优于像素分辨率，但分辨率精度可以更精细，在一些方法中，使用 FFT 配准方法，平移精度据称高达像素的 1/20^th[151]。

此外，立体视差方法受益于改进的子像素精度，特别是在长距离下，因为 Z 距离测量的粒度随着距离呈指数增加。因此，随着深度场增加，计算的深度场包含更粗糙的信息，并且计算的深度场在 Z 中实际上是非线性的。因此，立体和多视图立体视差计算中的子像素精度对于最佳精度来说是非常理想和必要的。

搜索策略和优化

如图图 5-1 所示，一个特征可能是稀疏的，覆盖一个局部区域，也可能覆盖一个区域或全局。用于隔离这些特征类型的搜索策略是不同的。对于全局特征，没有搜索策略:整个帧被用作特征。对于区域描述符，需要选择或分割一个区域(在第二章中讨论)。对于稀疏的局部特征，搜索策略变得很重要。稀疏局部区域的搜索策略分为以下几个主要类别(也包括在第五章的分类中)。

密集搜索

在密集搜索中，检查图像中的每个像素。例如，在每个像素处计算兴趣点，然后将兴趣点限定并分类到候选列表中，并且为每个候选计算特征描述符。局部二进制描述符和通用描述符(如 SIFT)使用密集搜索。

在立体匹配和深度感测中，以密集的方式搜索每个像素来计算视差和最近点。例如，立体算法使用密集的对应搜索来逐行逐像素地计算视差；单目深度传感方法，如 PTAM [327]使用密集搜索兴趣点，然后稀疏搜索预测位置的已知特征。

密集方法也可以应用于图像金字塔，其中通常首先搜索较低分辨率的金字塔，然后搜索较细粒度的金字塔。当特征位置未知且无法预测时，密集方法通常在准确性和稳健性方面更受青睐。

网格搜索

在网格搜索方法中，图像被分成规则的网格或小块，并且基于小块来定位特征。OpenCV 库中提供了一种新颖的网格搜索方法，使用网格搜索适配器(在第六章和附录 A 中讨论)。这允许在网格区域内重复试验搜索最佳特征，并具有在每次试运行前调整检测机参数的能力。从精度的角度来看，格网搜索的一个可能的缺点是，要素没有排列成格网，因此要素可能会沿着格网边界被遗漏或截断，从而降低整体的精度和鲁棒性。

网格搜索有多种用途。例如，一个规则的网格被用作 D 网网格拓扑的锚点，如图图 4-7 所示。或者，使用网格来形成图像拼贴块，并为每个拼贴块计算描述符，例如在 HOG 方法中，如图图 4-12 所示。Viola Jones 方法[146]也在网格上计算 HAAR 特征。

多尺度金字塔搜索

多尺度影像金字塔搜索背后的理念是通过从较低分辨率开始加速搜索，或者真正提供多尺度影像以允许在适当的尺度下找到特征。缩小图像比例的方法包括像素抽取、双线性插值和其他多采样方法。比例空间是创建影像金字塔的常用方法，下一节将讨论许多变体；参见图 4-16 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-16 。五个八度音阶的金字塔。这幅图片来自阿尔布雷希特·丢勒 1498 年的启示录木刻。请注意，许多方法使用非八度金字塔标度[120]

然而，随着金字塔等级的增加，检测到的特征的数量迅速减少，特别是对于已经被高斯滤波的尺度空间金字塔，因为高斯滤波器减少了图像纹理细节。此外，在较高的金字塔等级中，开始时会出现较少的像素，因此有时会使用小于八度音阶的金字塔比例间隔。有关图像金字塔的详细讨论，请参见参考文献[160]。

缩放空间和图像金字塔

通常，不是使用简单的像素抽取和像素插值来降低图像比例，而是使用高斯滤波方法来建立最初由 Lindberg[547]提出的比例空间【524，523】金字塔表示，以减少缩放伪像并保留斑点状特征。尺度空间是定义多尺度图像集的更正式的方法，通常使用高斯核*与图像 ***f(x，y)**卷积如下:

* 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

或通过等效方法:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SURF 方法[160]中描述了尺度空间高斯滤波器设计的一个很好的例子。以增加大小的内核实现的高斯滤波器以倍频程间隔的子采样间隔应用于原始图像，以创建尺度空间图像，例如，从 9x9 高斯滤波器开始，增加到 15x15、21x21、27x27、33x33 和 39x39 参见图 4-17 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-17 。以 0，2，4，16，32，64 的比例缩放空间高斯图像。图片来自阿尔布雷特·丢勒的启示录木刻，1498 年

尺度空间的一个缺点是在图像金字塔的较高级别中丢失定位和缺乏准确性。事实上，由于缺乏分辨率和高斯滤波，一些特征在图像金字塔的较高层中完全缺失。有效的尺度空间特征匹配的最佳例子可以是 SIFT，其规定尺度中的第一个^第一个金字塔图像是原始分辨率的两倍，以减轻尺度空间问题，并且还提供了良好的多尺度描述符框架。参见图 4-18 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-18 。规模和空间

图像金字塔类似于计算机图形学中使用的纹理贴图。图像金字塔的变化是常见的。使用倍频程和非倍频程金字塔间距，过滤方法也有变化。例如，SIFT 方法[161，178]使用五级八度音阶 n/2 图像金字塔，在尺度空间中具有高斯滤波图像。然后，使用高斯差分(DoG)方法捕获金字塔中相邻图像中的兴趣点极值最大值和最小值。SIFT 使用双比例第一金字塔等级，线性插值像素的原始放大倍数为 2 倍，以帮助保留精细细节。这项技术将稳定关键点的数量增加了大约四倍，这是非常显著的。在 ORB [120]方法中，非八度音阶空间是围绕五级金字塔上的音阶建立的，与两倍的八度音阶相比，这在金字塔等级之间具有更接近的分辨率等级。

要素金字塔

尺度空间金字塔和金字塔搜索的替代方法是使用特征空间金字塔，并建立一组多尺度特征描述符一起存储在数据库中。在这种方法中，描述符本身包含金字塔，不需要尺度空间或图像金字塔。相反，特征搜索直接从单尺度目标图像到多尺度特征进行。在第六章中讨论的 RFM 方法【220】甚至更进一步，包括对每个描述符的每个补丁的多视角变换版本。在表 4-3 中，注意多尺度特征可用于直接匹配目标图像，而单尺度特征更适合用于图像金字塔。

表 4-3 。使用单尺度特征和多尺度特征的一些权衡

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3-16 显示了多分辨率直方图【152】的相关概念，从尺度空间金字塔的图像区域创建，直方图连接在描述符中，用于确定特征匹配的纹理度量。所以在多尺度直方图方法中，运行时不需要金字塔图像集；相反，金字塔搜索使用来自描述符本身的直方图特征来寻找与单尺度目标图像的对应。

各种标量和其他度量可以组成多尺度特征金字塔，例如图像强度片、颜色通道强度片、梯度幅度和梯度方向。已经发现纹理特征的直方图作为更广泛的特征描述符的一部分作为仿射不变度量是有用的[152]。

稀疏预测搜索和跟踪

在稀疏预测搜索流水线中，在下一帧的预期位置搜索在先前帧中发现的已知位置的特定特征。例如，在用于单目深度感测的 PTAM [327]算法中，通过定位一组兴趣点和特征描述符，从来自单个相机的连续视频帧创建稀疏 3D 点云和相机姿态。对于每个新帧，使用先前的相机姿态矩阵，由新图像中相同的兴趣点和特征检测器可能在的坐标构成预测。然后，对于新的帧，开始搜索或跟踪循环，以使用金字塔粗到细搜索策略来定位预测兴趣点的少量个。在预测的兴趣点和特征周围的范围内搜索预测的兴趣点和特征，并且基于发现特征的新坐标更新相机姿态矩阵。然后，使用更新的相机姿态预测更大数量的点并且在该组中更精细比例的金字塔图像上进入搜索和跟踪循环。这个过程反复寻找点并改进姿态矩阵。

跟踪区域限制搜索

区域限制搜索的一个例子是视频会议系统，该系统使用立体声麦克风跟踪发言者的位置，以通过三角测量计算粗略位置。一旦知道了粗略的扬声器位置，就移动摄像机来观察扬声器，并且对于进一步的精细定位调整、自动缩放、自动聚焦和自动对比度增强来说，只有面部区域是感兴趣的。在这种应用中，不需要为面部特征搜索或处理整个图像。相反，FOV 的中心是搜索局限于定位面部的区域。例如，如果图像是从具有 1920×1080 分辨率的 HD 相机拍摄的，则仅需要处理图像中心的有限区域，可能是 512×512 像素，以定位面部特征。

分段有限搜索

分割区域可以定义搜索区域，例如具有特定纹理的区域，或者特定颜色强度的像素。在形态学视觉流水线中，可以以各种方式分割区域，例如阈值处理和二进制腐蚀+膨胀来创建二进制形状。然后，二进制形状可以用作掩模，以分割掩模下的相应灰度图像区域，用于特征搜索。图像分割方法在第二章的中介绍。

深度或 Z 有限搜索

随着低成本商用深度传感器出现在移动消费设备上， Z 维度可用于限制搜索范围。参见图 4-19 。例如，通过使用深度分割出图像的背景，前景特征更容易被分割和识别，并且搜索可以被深度段限制。考虑到计算机视觉从 2D 图像中提取 3D 图像信息需要花费多少时间，我们可以期待深度相机以新的方式用于简化计算机视觉算法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-19 。基于深度图的图像区域分割。来自 Middlebury 数据集的深度图像:(来源:D. Scharstein 和 C. Pal“为立体声学习条件随机场”CVPR 会议，2007。作者提供)

计算机视觉、模型、组织

这一部分包含了对所选示例的高级概述，以说明如何在计算机视觉系统中使用特征度量。在这里，我们探索了特征是如何被选择、学习、关联在一起以描述真实对象、分类以进行有效的搜索和匹配以及在计算机视觉流水线中使用的。本节介绍机器学习，但仅在高层次上使用选定的示例。Prince 在[546]中找到了关于机器学习的很好的参考。Szelinski [324]为计算机视觉模型、组织、应用和算法提供了很好的参考。

本节选择并定义了几个术语来讨论计算机视觉模型，即特征空间、物体模型和约束。本节的主要主题包括:

特征空间和最佳特征的选择
经由包含特征和约束的对象模型的对象识别
优化模式匹配的分类和聚类方法
培训和学习

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传注计算机视觉研究期刊和课程中讨论的很多方法都是从其他切线领域借用并应用的，例如，机器学习和统计分析。在某些情况下，计算机视觉正在推动这类切线领域的研究。由于这些领域已经建立并被认为超出了本研究的范围，我们在此仅提供一个简短的主题介绍，并提供完整性参考[546，324]。

特征空间

描述对象所需的所有特征、属性和其他信息的集合和组织可以被称为特征空间。在训练或学习阶段，通常使用基本事实数据作为训练集，将特征组织和分类到特征空间中。所选特征在数据库或一组数据结构(例如树和列表)中被组织和结构化，以允许在运行时进行快速搜索和特征匹配。

特征空间可以包含一种或多种类型的描述符，其使用诸如直方图、二元模式向量的谱作为多元复合描述符。此外，特征空间包含用于将多组特征关联在一起以识别对象和对象类别的约束。特征空间对于任何给定的应用都是唯一的，并且是根据所使用的特征类型和应用的要求来构建的；没有标准的方法。

特征空间可以包含几个用于描述对象的参数；例如:

几种类型的特征描述符，如 SIFT 和简单颜色直方图。
相对于训练图像的每个描述符的笛卡尔坐标。
每个描述符的方位。
与每个描述符相关联的训练图像的名称。
多模态信息，如 GPS、温度、海拔、加速度。
特征集或相关描述符列表。
一组描述符之间的约束，例如彼此之间的相对距离、相对距离阈值、描述符之间的角度关系或者相对于参考点的角度关系。
对象模型收集并关联每个对象的参数。
类别或同类物体的组合，如汽车。
对象或约束的标签。

对象模型

对象模型使用来自特征空间的参数描述真实对象或对象类别。例如，对象可能包含描述特定汽车所需的所有参数，如特征描述符集、标签和约束。一类对象可以关联和标记同一类的所有对象，例如任何类型的汽车。没有标准或规范的对象模型可以遵循，因此在本节中，我们将描述计算机视觉对象的总体属性以及如何对它们进行建模。

对象模型可以由多组单独的特征组成；对相关特征的约束，例如目标模型中特征的位置或方向；以及可能用于对象或描述符的其他多模态信息，例如 GPS 信息或时间戳，如图 4-20 中的所示。可以使用监督和非监督学习方法的组合来创建对象模型[403]；我们将在本章后面介绍几种方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-20 。简化的假设特征空间，显示特征、约束和对象的组织和关联

制定对象模型的一个早期尝试被称为*基于部件的模型，*由 Fischler 和 Elschlager 在 1973 年提出[530]。这些通过首先识别它们的部分来描述和识别更大的物体——例如，由眼睛、鼻子和嘴等部分组成的脸。基于零件的模型有几种变体；例如，参见参考文献[531–533]。机器学习方法也用于创建对象模型[546]，并在本节稍后讨论。

一个简单的对象模型可以仅由整个图像的图像直方图、每个相关图像的名称或标签以及可能的一些分类参数(例如图像的主题、GPS 位置和日期)组成。为了识别未知的目标图像，获取目标图像的直方图，并与来自数据库的图像直方图进行比较。使用合适的距离度量(例如 SAD)来测量一致性。在这个简单的例子中，强力搜索或散列表索引可以用于对照目标图像直方图检查数据库中的每个直方图，并且可能来自对象模型的其他参数可以与直方图一起匹配，例如 GPS 坐标。不需要进行复杂的机器学习分类、聚类、数据缩减或数据库组织，因为搜索方法是蛮力的。然而，随着更多的图像被添加到数据库中，寻找对应将变得越来越慢。并且直方图本身没有很强的辨别能力，并且提供很少的不变性。

约束条件

对象识别的关键，约束用于将特征和相关属性关联和限定为对象。在没有附加限定的情况下，单独的特征可能不足以识别对象，包括邻域一致性或半局部约束，涉及联合约束，例如局部特征组合集之间的角度和距离【348–350】。约束将对象模型元素关联在一起以描述和识别更大的对象[365，366，379]，例如通过确保一起找到对象特征的适当子集所需的最小特征计数阈值，或者通过使用诸如 GPS 位置的多模态数据约束，或者通过投票。

由于创建约束有许多方法，我们只能说明这个概念。例如，Lowe[161]展示了识别示例，说明如何使用 SIFT 特征来识别包含数十个不同特征的对象，在某些情况下，仅使用两个或三个良好特征。如果不能找到描述对象的一些特征，考虑特征方向和比例作为约束，这允许透视和遮挡不变性。另一个例子是宽基线立体匹配，其需要在 L/R 图像中的特征对上的位置和距离约束，假设 L/R 特征对的尺度和方向大约相等；在这种情况下，平移将被限制在基于深度的范围内。

检测器和功能的选择

基于变量的组合来选择特征检测器，例如特征检测器设计方法以及所需的不变性和性能的类型。接下来讨论几种方法或设计方法。

手动设计的特征检测器

一些特征检测器，例如多边形形状描述符和稀疏局部特征(如 SURF ),是使用专业人员的直觉、经验和测试结果手动设计和选择的，以解决应用所需的不变性属性。这包括选择正确的光谱来描述特征，确定特征的形状和模式，以及选择要搜索的区域类型。然而，有些检测器是根据统计和经验设计的，我们将在下一章讨论。

统计设计的特征检测器

统计方法用于设计和创建特征检测器。例如，在 ORB 和 FREAK 等方法中使用的二进制采样模式是基于可能的兴趣点比较对的统计特征从训练数据集创建的。通常，ORB 对每个检测到的兴趣点特征对组合进行排序，以找到与高方差不相关的术语。这是一个统计分类或训练过程，用于设计特征模式，并针对特定的基本事实数据集对其进行调整。更多关于 ORB 的细节见图 4-11 ，也见本章前面关于 FREAK 和 ORB 的讨论。

SIFT 还使用统计方法从训练集中确定最佳兴趣点、每个兴趣点的主导方向以及每个兴趣点的规模。

学到的功能

许多系统学习唯一的特征码本，使用稀疏编码方法在训练阶段对照选择的基本事实数据识别唯一的一组基本特征。所学习的基本特征特定于应用领域或训练数据，并且所选择的检测器和描述符可以仅仅是用作相关性模板的像素区域。然而，可以使用任何描述符，例如 SIFT。神经网络和卷积网络方法普遍用于特征学习，以及稀疏编码方法，这将在本章稍后讨论。

培训概述

机器视觉系统被训练识别期望的特征、物体和活动。然而，训练可能是相当复杂的，并且在机器学习和统计分析领域中被很好地覆盖(我们不详细地覆盖)。训练可以在专家的监督和帮助下进行，也可以在无人监督的情况下进行，如本节稍后讨论的深度学习方法。这里，我们提供了通用步骤的概述，并提供了更多详细信息的参考。训练的一个最简单的例子是获取与每种类型的图像相关联的图像直方图，例如，从不同图像中获取的描述人脸、动物或汽车的一组直方图。

训练包括收集适用于应用领域的图像训练集，然后确定可以调整哪些检测器和描述符以产生最佳结果。在一些情况下，特征描述符本身可以是可训练的并且被设计成匹配训练数据，例如局部二进制模式描述符 ORB、BRIEF 和 FREAK，它们可以使用从训练数据优化和学习的可变像素采样模式。

在特征学习系统中，整个特征集是从训练集中学习的。特征学习方法采用一系列描述符方法，例如包含像素区域的简单相关寺庙，或 SIFT 描述符。通过仅保留与已经在集合中的特征显著不同的特征，减少了学习的特征集合。特征学习方法将在本章后面介绍。

为了在训练期间形成更大的对象，使用约束将特征集合关联在一起，例如几何关系，如特征之间的角度或距离，或者特定区域内给定值的特征计数。对象是在训练期间确定的，这涉及针对所选的基本事实数据运行检测器和描述符以找到特征，然后确定将对象表示为复合特征集的约束。可以通过跟踪特征及其在相邻帧中的位置来识别活动，因此可以将活动视为一种元对象，并将其存储在数据库中。

在任何情况下，通过训练阶段获得的特征被分类到一个可搜索的特征空间，使用广泛的统计和机器学习方法。培训、分类和学习将在本章后面的高级部分讨论。

特征和对象的分类

分类是识别的另一个术语，它包括特征空间组织和训练。分类器是描述从数据中学习结构并识别对象的方法或系统的术语。自动构建分类器有几种方法，包括支持向量机(SVM)、核机器和神经网络。

一般来说，训练集或基础事实数据集的大小是分类器准确性的关键[336–338]。在系统训练期间，首先使用具有基础真实数据的训练集来建立分类器。机器学习社区提供了大量的培训指导，所以我们遵从已有的资源。深入挖掘机器学习和真实情况数据测试的关键期刊包括 NIPS 和 IEEE PAMI，后者可以追溯到 1979 年。机器学习和统计方法用于在训练期间指导特征的选择、分类和组织。如果没有对特征空间进行分类，则特征匹配过程遵循相对于已知特征的新特征的缓慢强力线性搜索。

本节讨论的主要分类问题包括:

相似特征的分组距离和聚类使用一系列最近邻方法来帮助组织、拟合、误差最小化、搜索和匹配，并启用相似性约束，如几何邻近、角度关系和多模态线索。
降维避免过度拟合，清理数据以去除离群值和虚假数据，并减少数据库的大小。
提升和加权增加特征匹配的准确性。
约束描述组成对象的描述符之间的关系，例如姿态估计器和阈值接受/拒绝过滤器。
构建数据库用于快速匹配和强力方法。

组距离:聚类、训练和统计学习

在本讨论中，我们将组距离和聚类称为描述数据原子组之间的相似性和差异的方法，有时可以互换，例如特征描述符。组距离和聚类的应用包括误差最小化、回归、异常值去除、分类、训练和特征匹配。

根据 Estivill-Castro[351]，聚类不可能在数学意义上定义，因为有如此多不同的方法和途径来描述一个聚类。相关方法汇总见表 4-3 。然而，我们将在计算机视觉的背景下讨论聚类，以解决数据组织、模式匹配和描述对象模型约束(同时试图不冒犯使用不同术语的数学纯粹主义者)。

为了识别一个群体中的相似特征，使用了多种聚类算法或群体距离算法[353]，在一些文献中也称为误差最小化和回归方法。特征被聚集在一起，用于计算机视觉，以帮助解决基本问题，包括对象建模、在匹配过程中寻找相似的模式、组织和分类相似的数据以及维数减少。

描述聚类的一种方式是通过相似性— 例如，在某种距离度量或回归方法下描述相关特征的聚类。在这个意义上，聚类与距离函数重叠:欧几里得距离用于位置，余弦距离用于方向，汉明距离用于二进制特征向量比较就是例子。然而，两点之间的距离函数在本讨论中不同于组距离函数、聚类和组分布。

在特征空间中有效地组织相似的数据用于搜索和分类是聚类的一种形式。它可以基于特征向量的相似性或距离度量，或者基于对象约束相似性，并且需要加速特征搜索和匹配。然而，商业数据库“和强力搜索”可以按原样用于特征描述符，而不试图进行优化。自定义数据结构可以通过树、金字塔、列表和哈希表进行优化。(我们建议读者参考计算机科学中的标准参考资料，包括数据组织和搜索；参见经典文本*唐纳德·克努特的《计算机编程的艺术》*或阿霍、乌尔曼和霍普克罗夫特的《数据结构和算法》。)

聚类的另一个方面是特征空间维度和拓扑。由于一些特征空间是多元和多维的，包含标量和张量，因此很难对聚类、误差最小化、回归或距离进行任何严格的定义；这实际上取决于相似性被测量的空间。

群体距离:聚类方法调查，KNN，RANSAC，K-Means，GMM，SVM，其他

可以选择一系列备选方案来聚类和学习数据原子组之间的相似性，从低端开始，使用基本的 C 库搜索和排序功能，并使用统计和机器学习方法(如核机器和支持向量机(SVMs ))达到高端，以构建完整的分类器。核机器允许将各种相似性函数代入一个公共框架，以简化相似性方法和分类的比较。

表 4-4 总结了所选的聚类方法，并为感兴趣的读者提供了一些关键参考。

表 4-4 。聚类、分类和机器学习方法

组距离标准

方法和参考

描述

¹http://www.kernel-machines.org/

分类框架，缰绳，轻便摩托车

培训和分类分为以下几大类:

**监督。**在训练过程中，会有人协助确保结果正确。
**无人监管。**可以从特征数据和参数中自动训练分类器【403】。

将所有的部分放在一起，我们看到训练分类器可以是手动的或自动的，简单的或复杂的，这取决于对象的复杂性和所使用的特征度量的范围。

SVM 或内核机器可能是理想的解决方案，或者问题可能更简单。例如，用于识别水果的机器视觉系统可以包含用于每种类型水果的分类器，其特征包括简单的颜色直方图、形状因子(例如面积和周长以及傅立叶描述符)以及表面纹理度量，并具有关联和量化每种类型水果的所有特征的约束。训练过程包括对每种类型的几片水果进行成像；开发颜色、形状和表面纹理的规范描述符；设计一个顶级的分类器，可能首先辨别颜色，然后辨别表面纹理，最后辨别形状。一个更简单的水果分类器可能只包含每个水果对象的一组精确颜色测量的图像直方图，并且如果在工厂中用高精度彩色相机对每个水果块进行成像，可能足够好地工作。

虽然大多数已发表的研究都是基于为特定应用或展示研究结果而设计的各种非标准分类方法，但一些工作正在朝着更标准化的分类框架进行。

为机器人导航和物体识别开发的潜在标准分类器框架的一个值得注意的例子是 REIN 方法【397】，它允许混合和匹配检测器、描述符和分类器来确定约束。REIN 提供了一个插件架构和接口，允许任何算法(如 OpenCV 检测器和描述符)在并行或串行流水线中组合。REIN 中有两种分类方法可以作为插件模块并行使用:二值化梯度网格金字塔作为新方法引入【397】，还使用了视点特征直方图【398】。

REIN 流水线为(1) 注意力操作符提供接口，以识别感兴趣的 3D 点并减少搜索空间；(2) 检测器，用于创建特征描述符；以及(3) 姿态估计器，用于确定诸如抓取之类的机器人运动的应用的几何约束。REIN 作为开放源码可用于研究；参见参考文献[397]。

另一个研究项目，MOPED【399】，为机器人导航提供了一个规则的架构，包括物体和姿态识别。轻便摩托车包括优化使用所有可用的 CPU 和 GPU 并行计算资源。轻便摩托车为 GPGPU 提供了 SIFT 和 SURF 的优化版本，并大量使用 SSE 指令进行姿态估计。

内核机器

在机器学习中，内核机器 [362]是一个框架，它允许一组用于对模式或特征进行统计聚类、排序、关联和分类的方法实现自动化。内核机器的一个常见例子是支持向量机(SVM) [341]。

内核机器的框架将描述符数据映射到特征空间，其中特征空间中的每个坐标对应于一个描述符。在特征空间内，可以使用核函数有效地进行特征匹配和特征空间缩减。在内核机器框架中使用了各种内核函数，包括 RBF 内核、Fisher 内核、各种多项式内核和图形内核。

一旦特征描述符被转换到特征空间，就可以采用比较、归约和聚类。内核机器的主要优点是内核方法是可互换的，允许针对相同的特征数据评估许多不同的内核。有一个活跃的内核机器社区(见kernel-machines.org)。

增压、加权

Boosting【381】是一个机器学习概念，它允许一组分类器一起使用，组织成组合网络、流水线或级联，并将学习到的权重应用于每个分类器。这导致使用组合的加权分类器的更高的协同预测和识别能力。升压类似于用于神经网络输入的加权因子；然而，boosting 方法更进一步，将分类器网络结合起来，创建一个单一的强分类器。

我们将说明 Viola Jones 方法[146，186]中的 boosting，该方法也在第六章中讨论，它使用 ADA-BOOST 训练方法，通过从许多弱学习器生成强分类器来创建级联模式匹配和分类网络。这是通过在训练阶段确定的动态加权因子来完成的，使用加权因子的方法称为增强。

boosting 的想法是首先对检测到的特征(在这种情况下是 HAAR 小波)进行相等的加权，然后将检测到的特征与预期的特征集进行匹配；例如，为特定面部检测的那些特征。每组加权特征是一个分类器。未能正确匹配的分类器称为弱学习器。在训练阶段，对于每个弱学习者，新的加权因子被应用于每个特征，以使分类器正确匹配。最后，所有弱学习器被线性组合成一个级联分类器，它就像一个弱分类器的流水线或漏斗，被设计成在流水线早期拒绝坏的特征。

培训可能需要数小时、数天或数周时间，并且需要一些监督。虽然 ADA-BOOST 解决了二元分类问题，但该方法可以扩展到多类分类[382]。

分类的一些例子

我们在这里列出了一些值得注意和流行的分类方法，它们也列在表 4-5 中。

表 4-5 。各种兴趣点、描述符和分类器概念的比较

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Note: The FERNS method does not rely on a local feature descriptor, and instead relies on a classifier using constraints between interest points.

随机化树 是一种使用基于贝叶斯概率方法的分层斑块分类器[384]的方法，采用一组由随机单应性参数变形的简单斑块特征。Ozuysal 等人【307】进一步开发了随机化树方法，使用非层级组织形式的*蕨类、*进行优化，使用二进制概率测试确定斑块分类器成员。使用朴素贝叶斯方法评估匹配。

FERNS training【307】涉及组合来自每个面片的多个视点的训练数据，以添加比例和透视不变性，使用具有 11 个级别的树和每个面片的 11 个版本，使用随机化仿射变形参数进行扭曲；一些高斯噪声和平滑也被应用到变形的片上。然后在每个变形片中定位关键点，并为训练集选择在变形最严重的片中找到的关键点。FERNS 关键点在三个尺度上使用拉普拉斯滤波器的最大值，并且仅保留最强的 400 个关键点。拉普拉斯关键点不包括方向或精细尺度估计。FERNS 不使用描述符，只使用在每组 11 个变形图像上计算的最强拉普拉斯关键点。

虽然 K-means [354]方法可能非常慢，但使用分层 Nister 树[387]进行优化是一种高度可扩展的替代方法，可用于索引分层词汇表树中大量量化或聚类的局部描述符。据报道，该方法具有很强的区分性，并且已经在大型数据集上进行了测试。

二进制直方图交集最小化(BHIM)【322】使用多尺度局部二进制模式(MSLBP)【322】对，以基于 ms LBP 特征对之间的强散度来形成成对耦合的分类器。MSLBP 要素对的直方图相交使用距离函数(如 SAD)来查找直方图距离的最大散度。然后，BHIM 分类器由具有大散度的 MSLBP 直方图“对”的列表组成，并且 MSL BP 被匹配到分类器中。BHIM 使用跨多种规模的训练数据创建的特征。据作者报道，它至少与 ADA-BOOST 一样准确，并且据报道，MSLBP 特征比 LBP 更具鉴别性。

Alahi 等人[391]开发了一种使用级联的一组由粗到细的区域描述符网格进行分类和匹配的方法，这些区域描述符称为对象描述符 (ODs)。目标应用通过一组摄像机跟踪对象，例如大都市地区的交通摄像机。每个 OD 是在多尺度网格上的等尺寸区域中计算的多尺度描述符的集合；网格的范围超过六个刻度，刻度因子相差 25%。任何现有的描述符方法都可以用于 od 方法，例如 SIFT、SURF 或相关模板。作者[391]声称，与使用现有描述符相比，在 OD 中级联描述符可以提高性能。

特征学习，稀疏编码，卷积网络

特征学习方法创建一组基本特征(我们在这里不严格地使用术语基本特征),这些基本特征在训练阶段从真实情况数据中导出。基本特征被收集到一个集合中。本节讨论了创建集合的几种相关方法。

术语:代码簿、视觉词汇、词汇包、功能包

在特征学习文献中使用了几个相关的方法和术语，包括诸如稀疏编码、码本、单词包和视觉词汇的变体。然而，对于新手来说，在各种方法中存在一些概念上的重叠，并且术语是微妙的，描述了用于学习特征和构建分类网络的方法中的微小变化；参见参考文献[114–119]。稀疏码类似于基本特征。活动识别领域的许多研究人员[69，75]正在使用稀疏码书并扩展研究领域。

我们描述了一些术语和概念，包括:

字典、代码簿、视觉词汇、单词包、特征包和特征字母表，包含特征集。
稀疏编码、稀疏编码和最小特征或编码集。
多层稀疏编码和深度信念网络，包含用于分层匹配的多层分类网络；这些要素由小比例、中比例和大比例要素组成-可能有十层或更多层的比例。
单层稀疏编码，没有特征层次，可以建立在多尺度描述符如 SIFT 之上。
无监督特征学习，包括从真实情况数据集学习给定应用的最佳特征的各种方法；特征学习最近在神经信息处理系统(NIPS)社区中受到了很多关注，尤其是在应用于卷积网络时。

稀疏编码

在自然图像的稀疏编码领域中的一些早期工作可以在 Olshausen 和 Field [126]的工作中找到，其形成了概念基础。为了创建稀疏码本，首先选择图像特征域，例如人脸识别或汽车识别。然后，选择一组基项(面片、向量或函数)，并基于选择的唯一性函数将其放入码本。稀疏编码的目标是包含实现系统的准确性和性能目标所需的唯一基本项的最小集合。

当在训练阶段向码本添加新特征时，使用合适的距离函数和经验阈值，将候选特征与码本中已经存在的特征进行比较，以确定特征唯一性。如果该特征足够独特，如通过距离函数和阈值所测量的，则新特征被添加到码本中。

在 Bo、Ren 和 Fox[124]的工作中，训练阶段包括使用诸如杯子之类的物体，将杯子放置在一个小的旋转桌上。从多个视点和距离拍摄对象的多个图像，以实现透视不变性，然后产生从各种姿态拍摄的一组补片，从这些补片创建唯一稀疏码字并将其添加到码本。另见参考文献[124，237，225，226]。相关工作包括稀疏码描述符或 HSC [125]的直方图，如第七章所述，用于改进 HOG 描述符。

视觉词汇

视觉词汇类似于文字词汇，它们共享共同的研究[231]。在文档分析领域，基于文档中唯一字数的直方图来分析和描述内容。当然，直方图可以被修剪和重新映射，以减少量化和宁滨。视觉词汇遵循与单词词汇方法相同的方法，通过视觉单词的频率来全局地表示图像，如图图 4-21 所示，其中视觉单词方法使用多种类型的特征描述符。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-21 。代表一组视觉单词的假设性简化插图，以及显示给定图像中每个视觉单词使用频率的直方图

为了建立视觉词汇，从真实情况图像中提取和收集独特的特征描述符。要被包括在词汇表中，新特征必须与词汇表中的现有特征具有显著的统计差异，因此只有当特征超过差异阈值函数时，它们才被添加到词汇表中。

为了量化视觉词汇特征以确定它们的唯一性，对特征集执行聚类和分类方法，并且选择唯一的候选特征，以便减少特征空间并有助于匹配速度。可以采用各种统计方法来减少特征空间，例如 K 均值、KNN、SVM、贝叶斯等。

为了收集视觉特征，从业者使用所有可能的特征描述和图像搜索方法，包括在规则网格和兴趣点对图像进行采样，以及尺度空间搜索。词汇表中使用的特征范围从简单的矩形像素区域到 SIFT 特征，以及介于两者之间的一切。视觉词汇的应用范围从分析活动识别的时空图像[232，235]到图像分类[233，234，118，116，235]。

通过卷积滤波器掩码学习检测器

如图 4-22 所示，Richardson 和 Olson【122】开发了一种学习最佳卷积滤波器的方法，作为应用于立体视觉里程计的兴趣点检测器。这种方法使用 DCT 和 HAAR 基特征的组合，使用随机权重形成一组候选的 8×8 像素基函数，每个基函数都根据类似于 2D 条形码的目标特征集进行测试，称为 AprilTags [527]。针对 AprilTags 测量每个 8×8 像素候选，以找到每个 tag 的最佳卷积掩模，从而形成基集。当然，其他目标特征(如角点)也可用于真实情况数据，而不是 AprilTags。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-22 。(左)用于办公室、会议室、隔间和大厅的图像的最佳学习卷积滤波器；灰度值表示滤波器系数的大小。(右)顶行中的可比角检测器，左下方的高斯差分，以及作者喜欢的自定义过滤器。(图片为安德鲁·理查森和埃德温·奥尔森，经许可使用)

使用学习的卷积模板，特征检测的步骤如下:(1)在选择的像素处卷积每个模板以获得响应；(2)将卷积响应与阈值进行比较；(3)使用 3×3 空间滤波器窗口抑制非极值响应值。作者报告了在快速检测器数量级上的良好准确性和高性能，但是随着特征计数的增加，组合检测和非最大抑制阶段具有更高性能的好处。

卷积神经网络，神经网络

卷积神经网络，由 le Cun【339】等人首创，是一种基于神经网络理论【360】实现机器学习算法的方法。卷积网络在图像分类和特征匹配方面在学术界和工业界取得了巨大成功[340]。

卷积神经网络是模拟神经网络的一种方法。卷积网络中的主要计算元素是许多并行优化卷积，以及计算单元之间的快速本地内存。运行时分类性能可以非常快，特别是对于硬件优化的实施[528]。

如图 4-23 所示，一种对每个神经元和神经元网络建模的方法包括一组输入、一组应用于每个输入的加权因子、一个组合函数和一个输出。存在许多映射到卷积网络的神经模型，我们请读者参考专家，参见 Lecun [339]。使用几种模型设计了神经网络，但是这个主题超出了本工作的范围[360]；更多信息请参见 NIPS 社区研究。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-23 。(左)来自人脑的神经元。(右)人工神经网络的许多可能模型之一[360]。注意，每个神经元可以具有几个输入、几个输出、一个偏置因子和输入/输出权重因子(未示出)。左边的人类神经元图像@ Gerry Shaw，经许可使用

神经网络是多层次的*、*，包含若干层和互连。如图 4-23 中的假设神经网络所示，一个偏差输入作为一个加权因子被提供给每个神经功能。一些神经网络配置使用应用于每个单独输入的单独权重，因此权重因子充当卷积核系数。就卷积网络而言，神经网络范例可以被映射到原始像素的局部小块中，作为最低级别的特征输入。例如，小块尺寸可以是 1 像素或 5×5 像素小块，每个输入具有卷积加权因子。

在网络中确定学习的加权因子[85，339]，以用作应用于块中每个像素的卷积核值。层的输出被称为特征图。加权因子在网络中学习，并且可以反向传播以在训练期间调整系统。

Lecun [339]提供了卷积网络的标准介绍。在学习过程中，一个关键目标是只保留唯一的特征并减少特征空间；为此，使用稀疏编码。在包含 10 个或更多标度层的深度学习方法【339，340】中，学习到的特征被组合成分级的高级、中级和低级特征的多层结构。网络和像素输入区域可以重叠到相邻的卷积核中。

深度学习、池化、可训练的特征层次

局部特征描述符通常与特定尺度或者甚至几个尺度的匹配有关。然而，正在开发可训练的特征层次方法[402，339],其使用层次或特征的*深度集、*对特征进行分类，所述层次或特征包含精细尺度的低级特征、中间或中等尺度的特征和粗糙尺度的高级特征——可能在特征检测层次中有八层或更多层——产生更深的表示，这是深度学习 AI 方法的目标[525]。

深度学习方法可能包括几层神经网络，包括隐藏层。为了减少层级的每一级的特征空间，在每一级使用特征学习来汇集[404]相似的局部特征，仅保留独特的特征。各种特征预处理方法被用于汇集，例如特征白化[405]，以将特征归一化为在对比或变化下相似。低级特征可以包括局部区域像素细节，高级特征可以类似于区域形状度量。这种可训练的特征分类网络在文献中以许多名称进行了讨论，例如深度信念网络[526]和特征学习。

许多研究人员正在建立依赖于矩形像素块的特征的深度信任网络，并使用卷积或相关的特征匹配方法。使用深度学习的卷积网络被部署在许多成功的商业应用中，如语音识别，或人脸，人和性别识别。它们也被用来赢得一些比赛[340]。据报道，随着特征的分辨率朝着更精细的尺度降低，使用深度学习的卷积网络的准确性增加，这增加了网络的深度。据报道，训练需要几天时间[340]，使用一组专用的 GPU。

一个有趣的例子是 Bo、Ren 和 Fox [242]的工作，其中采用分层匹配追踪 HMP 方法(深度方法)在无监督框架中学习特征，并添加到具有两个级别的稀疏码本。RGB-D 数据通道用于计算描述符，包括用于灰度或强度、 RBG 颜色、 Z 或来自深度相机的深度的单独描述符，以及来自深度数据的 3D 表面法线。使用了一些不同的描述符大小，包括用于较高级匹配的 4 像素重叠采样的 16×16 面片，以及用于较低级别的一组不重叠的 5×5 面片。这些特征作为特征学习过程的一部分被汇集在一起。

摘要

在这一章中，我们回顾了用于创建局部特征描述符和兴趣点检测器的背景概念和思想。关键概念和想法也发展成了第五章中建议的愿景分类法。这里讨论了距离函数，以及有用的坐标系统。我们研究了局部描述符的形状和模式，重点是局部二进制描述符，如 ORB、FREAK 和 BRISK，以说明概念。

使用仅来自特征描述符数据的图像重建来说明特征描述符辨别。讨论了搜索策略，如尺度空间金字塔和多级搜索，以及其他方法，如网格限制搜索。涵盖了计算机视觉系统模型，包括特征空间、对象模型、特征约束、统计设计特征和特征学习等概念。使用几种方法来说明分类和训练，包括核心机器、卷积网络和深度学习。为感兴趣的读者提供了几篇参考文献，以便更深入地挖掘。还提供了设计视觉系统的实际观察和考虑。

总之，本章提供了一些有用的背景概念，在阅读第六章中的局部特征描述符时要记住，因为这里讨论的概念主要来自当前使用的局部描述符方法；然而，本章也提出了一些额外的观察和未来研究的方向。**

五、特征描述属性的分类

因为恩特威斯尔夫妇渴望秩序、富足和安宁(他们的意思是东西应该留在他们放置的地方)

—J. R. R .托尔金《指环王》

本章为特性描述开发了一个通用的视觉度量分类法，以便收集概要描述符属性用于高级分析。分类法包括一套通用的鲁棒性标准 用于特征描述和基本事实数据集。本书中介绍和讨论的材料遵循并反映了这一分类法。通过开发分类法中的标准词汇表，术语和技术可以得到一致的交流和更好的理解。在第六章的中的特征描述符方法的调查中，分类法被用来记录*‘什么’*从业者正在做什么。

如图 5-1 所示，视觉度量分类基于特征描述符维度，使用三个轴——形状和模式、光谱和密度——旨在创建一个简单的分析和讨论框架。在没有标准的地方引入了一些新的术语和概念，例如术语特征描述符系列。这些已经被分解成局部二进制描述符、光谱描述符、基空间描述符和多边形形状描述符的类别；这些描述符家族也在第四章中详细讨论。此外，分类法从文献中借用了一些有用的术语，包括一些关于健壮性和不变性属性的术语。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5-1 。特征描述符维度的分类法，包括(1)作为全局、区域和稀疏局部的特征密度；(2)用于计算描述符的像素的形状和图案，包括矩形、圆形和稀疏采样图案；(3)光谱，包括特征本身所包含的光谱信息

为什么要创建一个保证是模糊的、包含几个变量的分类法，并且不能完美地表达任何特征描述符的属性呢？目的是提供一个框架来描述用于特性描述的各种设计方法。然而，分类法并不打算用来比较描述符的优点、性能或准确性。

愿景指标分类的三个轴是:

**形状和图案:**如何从目标图像中获取像素。
**密度:**描述符所需的图像范围，区分局部、区域和全局描述符。
Spectra: 用于度量的标量和矢量，以及算法和计算的摘要分类。

特征描述符系列

特性描述符和度量标准已经沿着几条思路发展成独立的家族。在许多情况下，不同家庭的研究团体在研究不同的问题，很少有交叉授粉或共同利益。例如，细胞生物学和医学应用通常对多边形形状描述符感兴趣，在文献中也称为图像矩。正如在计算机视觉文献中所讨论的，那些涉及流行的移动电话增强现实应用的人可能对本地二进制描述符更感兴趣。在某些情况下，特征检测器和特征描述符有共同的概念，这将在第六章中详细讨论；这些包括梯度和局部二进制模式的使用。

基于图 5-1 所示的分类法，我们将功能分为以下几类:

**局部二元描述符。**这些采样点对位于局部区域，并创建二进制编码的位向量，每次比较 1 位，服从汉明距离特征匹配。例子包括 LBP，FREAK，ORB，BRISK，Census。
**光谱描述符。**这些使用广泛的光谱值，如梯度和区域平均值。对可用于这些特征的光谱没有实际限制。检测器中最常用的光谱之一是局部区域梯度，例如在 SIFT 中。梯度也用于几个兴趣点和边缘检测器，如 Harris，Sobel。
**基础空间描述符。**这些方法将特征向量编码成一组基函数，例如熟悉的正弦和余弦幅度和相位的傅立叶级数。此外，现有的和新的基础特征正在以稀疏码书和视觉词汇的形式被设计(我们不严格地使用术语基础空间)。
**多边形形状描述符。**这些采用由统计指标测量的物体形状，例如面积、周长和质心。通常，使用形态学视觉流水线和区域算法提取形状，这可能比特征检测器和特征描述符的局部算法更复杂(将在第八章中讨论)。图像矩【518】是文献中经常使用的描述形状特征的术语。

计算机视觉分类学的前期工作

几篇研究论文对稀疏局部特征的各个方面进行了比较和对比，该领域有大量比较关键点检测器[306，93]和特征描述符[145，107]的例子。新的特征描述符方法和改进通常与现有的方法相比较，利用几个鲁棒性和不变性标准。然而，缺乏正式的分类工作来突出影响设计和比较的微妙细节。关于涵盖最先进的计算机视觉方法的良好调查，参见 Szelinski [324]。

需要注意的是，计算机视觉是一个巨大的领域。每年有几千篇研究论文发表，还有几千篇同样有趣的研究论文被会议出版商拒绝。这里有一些值得注意的作品，它们调查并组织了特征度量和计算机视觉领域。

仿射共变兴趣点检测器。Mikolajczyk 等人【153】为仿射协变兴趣点检测器提供了一个很好的分类法。此外，Lindberg [150]广泛研究了与规模无关的兴趣点方法。然而，我们寻求一个更加丰富的分类法来涵盖特性描述符的设计原则，并且我们已经围绕具有共同设计特征的描述符方法家族开发了我们的分类法。
带注释的计算机视觉参考书目。来自南加州大学，由 Keith Price 维护，该资源提供了计算机视觉几个分支的详细分类，以及该领域一些关键研究和计算机视觉资源的链接。 ¹
进化中的、分布式的、非专有的、在线的计算机视觉纲要。这提供了一个全面而详细的计算机视觉主题列表。该网站由 Robert Fisher 维护，并对维基百科的关键文章进行了索引。这可能是目前最好的在线资源之一。 ²
局部不变特征检测器综述。由蒂内·图亚特拉斯和王南钧·米科拉伊奇克[107]编写，该参考资料提供了几种特征描述方法的良好概述，以及对几种方法的局部特征、性能和精度评估、方法类型(角点检测器、斑点检测器、特征检测器)和实施细节的文献讨论。

鲁棒性和准确性

计算机视觉的一个关键目标是鲁棒性，或在各种条件下识别特征的能力。健壮性可以分解成几个属性。例如，检测一个特征应该在对给定应用至关重要的各种标准上是鲁棒的，例如比例、旋转或照明。我们也可以使用术语不变性或不变性来描述健壮性。最终目标是在不变性标准下的精确定位、一致性和鲁棒性。

然而，一些鲁棒性属性依赖于与其他变量相结合的特征描述符。例如，许多局部特征描述符方法基于选择的兴趣点方法计算位置和方向，因此描述符的准确性与兴趣点方法相关。距离函数和分类方法也是相互关联的，以确定最终精度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传注意因为不可能独立于兴趣点方法、分类器和距离函数来定义特征描述符的鲁棒性或准确性，所以存在混合和匹配众所周知的检测器和描述符以及各种分类器的机会，以产生期望的鲁棒性和准确性。

稳健性和准确性是以下因素的组合:

**兴趣点准确性，**因为许多描述符依赖于关键点的位置和方向。
**描述符精度，**随着每个描述符方法的不同而不同，并且可以调整。
**分类器和距离函数精度，**作为一个差的分类器和匹配阶段会导致错误的结果。

因此，应用面临的部分挑战是逐个属性地定义鲁棒性标准，然后定义所寻求的不变性的界限。例如，从 1 倍到 100 倍放大的比例不变性可能不需要并且几乎不可能，但是从 1 倍到 4 倍的比例不变性可能是所需要的并且更容易达到。

健壮性的几个属性在这里被发展成一个健壮性分类。为了确定实际的稳健性，需要真实情况数据作为检查算法和测量结果的基础。第七章提供了地面实况数据选择和设计的背景。

通用稳健分类法

鲁棒性标准可以用属性来表示，并作为对这些属性的不变性或鲁棒性来度量。(参见第七章、表 7-1 ，了解关于每个鲁棒性标准属性的更多信息，以及创建真实情况数据集的注意事项。)稳健性标准和属性在以下组标题下分组:

照明
颜色
不完全
分辨率和距离
几何失真
歧视和独特性

每个鲁棒性标准组包含几个更细粒度的属性，如图图 5-2 所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5-2 。一般稳健性标准及其属性

让我们来看看这些健壮性属性，以及设计和实现特性描述符的一些实际考虑，以及处理这些属性的相应基础数据。

照明

光是所有成像的来源，在为给定应用设定要求时，它应该是分析和考虑的第一优先领域。照明有几个方面，与颜色和颜色空间分开考虑。在某些情况下，可以通过改变光源或添加或重新定位光源来校正照明。在其他情况下，需要图像预处理来校正光照，以便为进一步分析和特征提取准备图像。

对照明的关注怎么强调都不为过；例如，参见图 4-3 显示了在增加特征提取对比度方面改变照明的预处理效果。关键照明属性是:

**照明不均匀:**图像包含暗区域和亮区域，有时会模糊依赖于特定范围像素强度的特征。
**亮度:**总光线过多或过少，影响特征检测和匹配。
**对比:**强度带过窄、过宽，或包含在几个带中。
**晕影:**光线分布不均匀，如边缘周围较暗。

颜色标准

使用颜色时，颜色的准确性至关重要。色彩管理和色彩空间将在第二章中讨论，但一些主要考虑事项如下:

**色彩空间精确度:**应该使用哪种色彩空间——RGB、YIQ、HSV，还是 CIECAM02 Jch 或 Jab 等感知精确的色彩空间？每个色彩空间都有准确性和实用性方面的考虑，例如在色彩空间之间转换色彩的容易程度。
**颜色通道:**由于相机通常提供 RGB 数据，因此从 RGB 数据中提取灰度级强度通常很重要。有许多方法可以将 RGB 颜色转换为灰度强度，并且有许多颜色空间可供选择。
**颜色位深度:**颜色信息在使用时，必须足够精确以满足应用要求。例如，8 位颜色可能适用于大多数应用，除非有必要进行颜色辨别，因此可能需要每通道使用 10、12、14 或 16 位的更高精度颜色。

此外，根据所使用的相机传感器，每个颜色通道会有不同的信号特征，如颜色灵敏度和动态范围。对于要求苛刻的颜色关键应用，相机传感器应该很好地理解，并有一个已知的校准方法。在图像预处理过程中，可能需要对个别颜色进行补偿。(参见第一章关于摄像头传感器的讨论。)

不完全

特征并不总是以它们被期望的方式或它们被学习的方式在图像中逐帧呈现。这些特征可能看起来不完整。不完整性的关键属性包括:

**杂波:**特征被周围的图像特征遮挡，特征混叠并融合到周围的像素中。
**遮挡:**特征部分隐藏；在许多情况下，应用会遇到被遮挡的要素或要素集。
**离群值，接近度:**有时只使用某些区域的特征，必须检测并忽略离群特征。
噪声:可能来自雨水、坏的图像传感器和许多其他来源。噪声是一个持续存在的问题，如果理解的话，可以在预处理过程中使用多种滤波方法进行补偿。
**运动模糊:**如果测量并理解，在预处理期间可以使用滤波来补偿运动模糊。
**抖动、抖动:**运动伪影、抖动或抖动可以被校正，但并不总是如此；这可能是一个难以满足的鲁棒性标准。

分辨率和精确度

关于分辨率、比例和距离的鲁棒性通常是计算机视觉的一个挑战。当使用依赖于离散像素大小的特征度量时尤其如此，其中像素面积随距离而变化。例如，仅依赖于像素邻域结构的特征度量不能很好地或容易地缩放，例如相关性模板和大多数局部区域核方法。其他描述符，例如基于形状因子的描述符，可以提供像素区域结构无法实现的鲁棒性。根据应用的不同，可能需要不止一种描述符方法来处理分辨率和缩放。

为了应对分辨率和距离鲁棒性的挑战，在实践中采用了各种方法，例如尺度空间图像金字塔集合和特征空间金字塔，它们包含特征的多尺度表示。分辨率和距离稳健性的关键标准包括:

**定位精度或位置:**在缩放、旋转、噪声和其他标准下，度量需要提供多接近的坐标位置？需要像素精度还是亚像素精度？特征描述的区域精度方法也不能确定位置精度；例如，使用 HAAR-like 特征和积分图像的方法会受到最大的影响，因为在计算 HAAR 矩形时，矩形中的所有像素被加在一起，从而丢弃了对单个像素位置的区分。像素级特征精度也是一个挑战，因为随着特征的移动和旋转，它们会变形，并且像素采样伪像会产生不确定性。
**形状和厚度扭曲:**距离、分辨率和旋转共同扭曲了像素样本的形状，因此某个特征可能看起来比实际更厚或更薄。失真是一种采样伪像。
**焦平面或深度:**根据距离的不同，每个像素覆盖的像素区域会改变大小。在这种情况下，当与 RGB 或其他传感器一起使用时，深度传感器可以提供一些帮助。
**像素深度分辨率:**例如，可能需要使用 float 或 unsigned short int 作为最小值来处理颜色通道以保持位精度。

几何变形

也许图像特征最常见的失真是几何失真，因为随着照相机的移动和物体的移动，几何失真有多种形式。稳健性的几何属性包括以下内容:

**标度:距视点的距离，**一个通常被提及的鲁棒性标准。
**旋转:**在许多应用中很重要，例如工业检测。
**几何扭曲:**活动识别和动态纹理分析领域的关键研究领域，详见第四章和第六章。
**倒影:**将图像翻转 180 度。
**径向失真:**深度感测中的一个关键问题，通常对于 2D 相机的几何结构也是如此，因为深度场不均匀或不简单；参见第一章。
**极畸变:**深度传感几何中的一个关键问题；参见第一章。

效率变量、成本和收益

我们认为效率与计算、内存和提供的总不变性属性有关。特征描述符或特征度量的效率如何？创建指标需要多少计算量？存储该指标需要多少内存？指标有多准确？与计算和内存成本相比，提供了多少稳健性和不变性？要回答上述问题非常困难，这取决于如何为应用实施整个视觉流水线，以及可用的计算资源。Vision Metrics 分类法提供了追踪这些问题的信息，但是像往常一样，追踪错误的问题可能会导致错误的答案。

区别和独特性

使用各种方法来选择最佳的、有区别的特征。例如，局部特征检测器方法基于诸如角强度之类的标准，仅过滤出最有区别或唯一的候选；然后在选定的兴趣点上计算描述符作为斑块或其他形状；最后基于唯一性标准接受或拒绝结果描述符。唯一性也是创建第四章中讨论的稀疏码本的关键标准。

如第四章所述，可通过仅根据描述符信息重建图像的能力来衡量辨别能力。具有太少信息以充分重建图像的描述符可能被认为是弱的或无鉴别能力的。

通用视觉度量分类

为了理解特性度量，我们开发了一个由汇总标准组成的视觉度量分类法。选择每个标准时，都要考虑实际的工程观点，以便为评估和具体实施提供信息，例如算法、频谱、内存大小和其他属性。视觉度量分类的基本类别在表 5-1 中显示，并在此以列表形式总结，每个列表项在本章的单独章节中讨论:

特征描述符族
光谱维数
光谱值
兴趣点
存储格式
数据类型
描述符存储器
特征形状
特征模式
特征密度
特征搜索方法
模式对抽样
图案区域大小
距离函数
运行时计算

表 5-1 。视觉度量分类

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

分类法中使用的许多背景概念在第四章中讨论，其中分析了关于内部结构的属性和公共特性的目标。此外，在本章后面的特性度量评估(FME) 信息表中说明了这种分类。在第六章特性描述符调查中使用了分类的一个小子集来记录摘要信息。表 5-1 中的分类法是收集和总结信息的指南。没有记录或暗示对良好或性能的判断。

特征描述符系列

如本章开头所述，特性描述符在这种分类法中分类如下:

局部二进制描述符
光谱描述符
基础空间描述符
多边形形状描述符

光谱尺寸

记录在特征描述符中的谱或值是变化的，并且可以包括一种或多种类型的信息或谱。我们将类别划分如下:

**单变量:**存储单个值，如积分图像或区域平均值，或者只是一组简单的像素梯度。
**多元:**存储多个光谱；例如，诸如颜色信息、梯度大小和方向以及其他值的光谱的组合。

光谱类型

特征描述符的光谱类型是该分类法的主轴，如图 5-1 中的所示。以下是常见的光谱，它们已经在第三章的中讨论过，也将在第六章的中讨论。

**梯度幅度:**局部区域纹理或差异的度量，被广泛的基于面片的特征描述符方法所使用。众所周知[248]，人类视觉系统在视网膜上以比例和旋转不变的方式响应梯度信息，如 SIFT 和许多其他特征描述方法所示，因此梯度的使用是计算机视觉的首选方法。
**梯度方向:**一些描述符方法计算梯度方向，而另一些不计算。一些特征描述符和边缘检测方法(包括 Sobel 和 SIFT)使用简单的区域梯度方向方法来提供旋转不变性。
**方向向量:**有些描述符是有方向的，有些不是。可以通过简单梯度之外的方法来计算方向，例如，SURF 使用对许多梯度方向进行采样的方法来计算整个补片区域的主要梯度方向，作为方向向量。在 RIFF 方法中，计算径向相对方位。在 SIFT 方法中，在主方向的 80%内检测到的任何方向将导致生成额外的兴趣点，因此相同的描述符可以允许多个兴趣点仅在方向上不同。
**传感器数据:**加速度计或 GPS 信息等数据被添加到描述符中。在 GAFD 方法中，由加速度计计算的重力矢量用于定向。
**多重几何:**共同存储在描述符中的描述符数据的多重几何变换，例如 RFM2.3 描述符中使用的相同数据的若干不同透视变换；后者包含通过各种几何变换计算的相同面片，以增加缩放、旋转和几何鲁棒性。
**多尺度:**描述符存储了几个尺度表示的副本，而不是依赖于尺度空间金字塔。在第四章中描述的多分辨率直方图方法是一种在一个尺度范围内近似特征描述的方法，其中尺度使用一个高斯模糊函数范围来近似，并且它们产生的直方图被存储为多尺度描述符。
**傅立叶幅值:**傅立叶级数的正弦和余弦基函数均可用于描述符中——例如，在描述符的多边形形状族中，如图图 6-29 所示。正弦或余弦的大小本身就是一个有启发性的形状因子，没有相位，如图图 6-6 所示，该图显示了 LBP 通过傅立叶级数产生的功率谱的直方图。这说明了 LBP 直方图功率谱如何提供旋转不变性。与傅立叶级数相关的其他方法可以使用计算的替代方案，例如离散余弦变换(DCT ),其仅使用余弦分量，并且服从于整数计算和硬件加速，如通常为媒体应用所做的那样。
**傅立叶相位:**相位信息已经被证明对于创建模糊不变特征描述符是有价值的，正如在第六章中讨论的 LPQ 方法中所展示的。
**其他基函数:**可用于特征描述。由于对函数窗口的更大控制以及将从母小波导出的基函数调整到相关小波族中，小波通常用于代替傅立叶方法。参见第二章讨论小波与其他基函数的比较。
**形态形状度量:主要用于多边形形状描述子家族，由形状因子、组成，在一些文献中称为图像矩。它们是根据多边形图像区域的总体特征(如面积、周长、质心等)计算的。用于多边形形状描述的视觉流水线和图像预处理可以包括形态学和纹理算子，而不是局部兴趣点和描述符计算。
**学习的二进制描述符:**通过训练步骤运行基础事实数据来创建，例如在 ORB 和 FREAK 中开发的，以创建一组统计优化的二进制采样点对模式。
**字典、码本、来自特征学习方法的词汇:**使用各种各样的描述符方法，如简单图像相关补丁或 SIFT 描述符，建立视觉词汇、字典或稀疏码本，作为独特特征的稀疏集合。当组合成一个稀疏集合时，它们代表了在一个应用领域(如汽车识别或人脸识别)的一组基本事实数据中发现的特征。
区域直方图 2D: 用于几种类型的信息，如宁滨梯度方向，如在 CARD、RFM2.3 和 SURF 中；或者用于宁滨线性二进制模式，例如 LBP。直方图梯度信息的 SIFT 方法使用相当大的直方图仓区域，其提供了一些平移不变性，类似于人类视觉系统对视网膜上梯度的 3D 位置的处理[248]。
**3D 直方图:**用于 SIFT 等方法，将梯度大小和方向一起表示为 3D 直方图。
**笛卡尔箱:**将局部区域信息宁滨到描述符中的一种常用方法，简单地基于像素在面片中的笛卡尔位置——例如，用直方图表示区域中每个点的像素强度大小。
**对数极坐标仓:**代替笛卡尔直角排列中的宁滨局部区域特征信息，诸如 GLOH 的一些描述符使用对数极坐标系统来准备直方图宁滨的值，目的是向描述符添加更好的旋转不变性。
**区域求和:**比如一幅积分图像，一种用来快速求和局部区域像素值的方法，或者 HAAR 特征。区域总和被存储到表示该区域中所有像素的总值的特征中。注意，区域求和对于区域的粗略特征描述可能是好的，但是求和过程消除了精细的局部纹理细节。
**区域平均值:**一个区域内像素的平均值，也称为箱式滤波器，可以通过卷积运算、缩放积分图像或简单地将数组中的像素值相加来计算。
**区域统计:**如区域矩，如标准差、方差、最大值或最小值。
**二进制模式:**诸如二进制值或位的向量——例如，作为在本地二进制描述符族(诸如 LBP、Census 和 ORB)中使用的本地邻域像素值的本地像素对比较计算的结果而存储。
**DoG (1 比特量化的)😗*如在 FREAK 描述符中所使用的，一组不同大小的 DoG 或带通滤波器特征，在类似于人的视觉系统的视网膜采样模式中的局部二进制区域上获取，成对比较，并量化为直方图向量中的单个比特。
**DoG(多位)😗*一种使用许多变体实现的带通滤波器，其中将高斯模糊滤波器应用于图像，然后从(a)其自身的移位副本，(b)其自身在另一高斯模糊级别的副本，或(3)其自身在另一图像比例的副本中减去图像，如在 SIFT 描述符方法中。
**值的位向量:**包含量化为单个位的值序列的位串，如阈值。
**3D 表面法线:**除 3D 中的模拟 2D 梯度，在 HON4D 方法[198]中使用，以在特征描述符中描述 3D 物体位置的表面。
**线段度量:**如在 CCH 方法中，用于描述组成物体周长的线段。或者，用作物体的形状因子，在描述符中记录了一组从形心开始延伸到周长的径向线段的长度，可将其输入傅里叶变换以产生功率谱特征，如图图 6-29 所示。
**颜色空间信息:**一些描述符没有利用颜色信息，在许多情况下，颜色信息可以提供额外的区分和准确性。无论是使用简单的 RGB 通道，如 RGB-D 方法[75，118]，还是使用色彩空间转换到更精确的空间，都是非常宝贵的。例如，人脸识别在区分来自不同文化的人脸方面存在问题，并且由于肤色在不同区域有所不同，因此可以测量颜色值并将其添加到描述符中。然而，一些描述符利用颜色信息，例如 S-LBP，其在色度、精确的颜色空间(例如 CIE-Lab)中操作，或者 F-LBP，其计算从中心像素到相邻像素的颜色距离的傅立叶光谱，以及 SIFT 和许多其他颜色变量。
**灰度信息:**灰度或颜色强度值是几乎所有描述符中的默认光谱。然而，用于从颜色创建灰度的方法，以及用于为分析和测量准备强度的图像预处理，对于视觉流水线至关重要，在第二章中讨论过。

兴趣点

在特征描述中，兴趣点的使用是可选的。一些方法不使用兴趣点，而是在固定的网格上而不是在每个像素上对图像进行采样，例如 Viola Jones 方法使用类似 HAAR 的特征。也可以简单地为每个像素而不仅仅是感兴趣的点创建特征描述符，但是由于对性能的影响是相当大的，所以感兴趣的点通常用于首先找到特征的最佳位置。

在第六章中对几种寻找兴趣点的方法进行了调查和讨论。分类法的兴趣点类别包括:

**点、边或角:**这些方法通常从定位局部区域最大值和最小值开始；使用的方法包括梯度，局部曲率，哈里斯方法，斑点检测器和边缘检测器。
**基于轮廓，周长:**一些方法不是在最大值和最小值处开始特征描述，而是在图像中寻找结构，例如轮廓或周长，这主要适用于基于形态学形状的方法。
**其他:**确定兴趣点位置还有其他可能，比如预测可能的兴趣点或特征位置，或者使用网格或瓦片区域。
**无兴趣点:**有些方法根本不使用任何兴趣点。

存储格式

存储格式对于内存效率、工程实际系统和设计数据结构来说是一个实际问题。了解存储格式可以在工程和优化过程中为各种编程结构、指令集和内存架构提供指导。

例如，CPU 和 GPGPU 图形处理器通常都提供专用芯片来支持各种存储格式组织，如分散和聚集操作，以及稀疏和密集数据结构支持。了解 GPGPU 的功能可以为设计存储格式提供指导，如第八章中所述。存储格式摘要:

**光谱向量:**可以是一组直方图，一组颜色值，一组基向量。
**位向量:**局部二进制模式使用位向量数据类型，有些编程语言包含位向量构造，有些指令集包含位向量处理指令。
**多元集合:**统计矩或形状因子等一组值。

数据类型

用于特征描述的数据类型对于准确性、内存使用和计算至关重要。但是，值得注意的是，在某些情况下，为了保证准确性，可以更改数据类型。举例来说，将浮点运算转换成定点或整数运算可能更具存储器效率以及功率效率，因为浮点硅 ALU 复合体占据几乎四倍多的裸片空间，因此比整数 ALU 消耗更多的功率。数据类型摘要包括:

**浮点:**许多应用需要浮点以保证精度。例如，图像的傅立叶变换需要至少 64 位双精度(更大的图像需要更高的精度)；目标跟踪等其他应用可能需要 32 位浮点来进行精确的轨迹计算。
**整数:**像素值通常用 8 位值表示，每像素 16 位是常见的，因为图像传感器提供更好的数据。许多数据结构和数值结果(如积分图像)至少需要 32 位整数。
**定点:**这是浮点的替代表示，节省了数据空间，可以更高效地在硅片中实现。大多数现代 GPU 支持几种定点格式，也支持一些 CPU。定点格式包括 8 位、16 位和 24 位表示。取决于应用，使用固定点可能足够接近精度。除了定点数据类型，GPU 和一些处理器还提供各种规范化数据类型(参见制造商信息)。

描述符存储器

总描述符内存大小是描述符效率的一部分，计算性能是另一个组成部分。具有较大内存占用、较少不变性属性和繁重计算的描述符是低效的。实际上，我们对内存大小感兴趣。与内存相关的主要属性包括:

**固定长度或可变长度:**一些描述符允许替代表示。
**字节计数:**描述符中所有数据的长度。

特征形状

一系列形状用于像素采样模式；在第四章中调查形状，包括以下方法:

**矩形块面片:**简单的 x，y，dx，dy 范围。
**对称多边形区域:**可能是八边形，如在责难方法中，或者是圆形区域，如 FREAK 或 DAISY。
**不规则分割区域:**例如使用形态学方法在分割区域或阈值化周长之后计算的。
**体积区域:**一些特征利用了类似于体积结构的图像堆叠。如图图 6-12 所示，VLBP 或体积 LBP 和 LBP-TOP 利用了体积数据结构。动态纹理方法和活动识别方法通常使用来自当前帧加上 2 个过去帧的三个相邻片的集合，以时空图像帧历史来组织，类似于体积。
**可变形:**大部分特征使用刚性形状，比如固定大小的矩形或圆形；然而，一些描述符在设计时考虑了变形，例如比例变形[345，346]和仿射或单应变形[220]，以实现更鲁棒的匹配。

特征模式

特征模式是这个分类的主轴，如图 5-3 中的所示，因为它影响内存架构和计算效率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5-3 。特征形状。(从左到右)矩形面片、对称多边形区域、不规则分段区域和体积区域

特征形状和图案是相关的。形状指的是边界，图案指的是采样方法。模式包括:

**矩形核:**有些方法用一个核来定义样本中包含区域中的哪些元素；参见图 5-3 (左图)显示了一个不使用该区域角点像素的内核；参见图 4-10 。
**二元比较模式:**如 FREAK、ORB、BRISK，将一个区域中的特定像素配对，形成一个复杂的采样模式。
**DNET 线采样带集合:**沿线段点密集采样；参见图 4-8 。
**径向线采样模式:**从中心点开始的径向线段上的点被密集采样；例如，用于计算多边形区域形状的傅立叶描述符；参见图 6-29 。
**周界或轮廓边缘:**对形状或区域边缘周围的点进行密集采样。
**样本加权模式:**如图图 6-17 所示，SIFT 在直方图面元中使用一个圆形加权模式，以减少远离面片中心的点的贡献。D-NETS 方法使用沿线带样本的二进制加权，偏向远离端点的点，忽略靠近端点的点。加权模式可以提供对噪声和遮挡的不变性。

参见第四章关于贴片和形状部分的更多插图。

特征密度

如图 5-1 所示，特征密度是这个分类法的主轴。用于描述符的图像量在该分类法中被称为特征密度。例如，一些描述符旨在使用锚定在兴趣点的局部像素的较小区域，并忽略较大的图像。其他方法使用更大的区域。密度类别包括:

**全局:**覆盖整个图像，图像中的每个像素。
**区域:**覆盖图像的相当大的区域，通常在网格上，或在分割的结构或区域周围，不在兴趣点锚定。
**稀疏:**可以在感兴趣的点，或者在选定点的小区域中进行，例如在简短描述符中的随机点，训练点，例如 FREAK 和 ORB，或者在 RFM2.3 描述符中的稀疏采样网格。

特征搜索方法

在图像中搜索特征的方法对于特征描述符的设计具有重要意义。搜索方法在很大程度上决定了描述符的设计，以及视觉流水线中所需的计算时间。我们在这里列出了几个搜索变体，更详细的描述和图示在第四章中提供。注意，特征描述符可以利用多个搜索标准。功能搜索相关信息总结如下:

**由粗到细的图像金字塔:**或多尺度搜索，使用原始图像的较粗分辨率副本的金字塔。
**尺度空间金字塔:**尺度空间金字塔是常规的由粗到细的图像金字塔的变体，其中在每个金字塔尺度图像上计算高斯模糊函数[547]以创建更均匀的搜索空间；参见图 4-17 。
**金字塔标度因子:**捕捉金字塔标度区间，例如八度音阶或其他标度，例如，ORB 使用约 1.41x 标度。
**密集滑动窗口:**在图像中的每个像素上进行搜索，通常在以每个像素为中心的滑动矩形区域内。
**网格分块搜索:**图像被分成固定的网格或分块，因此搜索速度更快，但不如密集方法有区别。例如，参见描述 PHOG 方法的图 6-17 ，该方法在整个图像中以不同的网格分辨率计算描述符。
**窗口搜索:**将密集搜索限制到特定区域，例如在两个 L/R 帧之间的立体匹配中，对应搜索范围被限制到预期位置。
**兴趣点稀疏:**使用角点检测器或其他检测器来确定在哪里可以找到有效特征。
**预测点稀疏:**例如在像 PTAM 这样的跟踪和映射算法中，基于运动或轨迹预测兴趣点的位置，然后在预测点开始特征搜索。
**分割区域稀疏:**例如，当形态学形状分割方法或阈值分割方法定义一个区域，并且第二次通过该区域寻找特征时。
深度分割区域(Z): 当使用深度相机信息将图像阈值化为前景和背景，并且仅搜索前景区域的特征时。
**超像素搜索:**类似于图像金字塔方法，但图像的多尺度表示是通过使用超像素整合方法将像素值组合在一起而创建的，如第二章所述。
**亚像素搜索:**在需要亚像素精度的情况下——例如，对于区域相关性，围绕单个像素进行多次搜索，每次比较都计算亚像素偏移，在某些情况下，在特征匹配之前进行图案的几何变换。
**双尺度第一金字塔等级:**在 SIFT 尺度-空间金字塔方法中，金字塔的最低等级是从全尺度图像的双 2x 线性插值版本计算的，这具有保留图像金字塔最低等级中的高频信息的效果，并且将稳定关键点的数量增加了大约四倍，这是非常显著的。否则，计算原始图像上的高斯模糊会导致丢弃大部分高频细节。

模式对抽样

对于局部二进制模式，模式对采样设计是创新的关键领域之一。使用诸如使用比较区域阈值的(中心像素<核心像素)的函数来比较点对，然后比较的结果形成二进制描述符向量。请注意，许多局部二进制描述符方法在第四章中进行了讨论和说明，以说明点对采样配置和比较函数的变化。点对采样的视觉分类包括:

**中心-边界对:**如在 LBP 家族和普查变换中。
**随机对分:**如在 BRIEF，在 ORB 半随机。
**以视网膜中央凹为中心的训练对:**如在 FREAK 和 Daisy 中。
**训练的点对:**许多方法使用真实情况数据来训练点对，以满足客观标准，例如 FREAK 和 ORB。
**对称对:**如 BRISK，提供对称间隔的长短线段，用于点对比较。

图案区域尺寸

局部模式区域的大小是一个关键的性能因素，即使内存访问可能来自快速寄存器文件和缓存。例如，如果我们执行 3×3 模式区域的卷积，每个内核有 9 次乘法，可能还有一次汇总乘法来缩放结果，每个像素总共有 10 次乘法。对于每次乘法，我们有两次内存读取，一次读取像素，一次读取内核值；我们有十次内存写操作，每次乘法一次。一幅 640x480 的图像有 307200 个像素，假设每像素灰度只有 8 位，那么每帧我们最终得到 3，072，000 次乘法运算、60，720，000 次内存读取和 307200 次写入的结果。更大的内核和更大的图像当然会增加更多的计算量。

有许多方法可以优化性能，我们将在关于视觉流水线工程的第八章中讨论。对于该属性，我们对以下内容感兴趣:

**边界框(x 尺寸，y 尺寸)😗*例如，矩形区域、圆形区域或多边形形状区域周围的边界框。

距离函数

计算模式匹配或对应是好的描述符的关键性能标准之一。特征匹配是准确性和性能之间的折衷，关键变量是特征描述符向量的数值类型和大小、距离函数以及特征数据库中的模式和搜索优化的数量。选择一个适合快速匹配的特征描述符是一个好目标。

一般来说，最快的距离函数是二进制族和汉明距离，后者用于局部二进制描述符族。这里列举了距离函数；详见第四章。

欧几里德距离族或笛卡尔距离族

欧几里得距离
平方欧几里德距离
余弦相似性
美国 L1 标准
固态硬盘 L2 标准
相关距离
海灵格距离

网格距离族

曼哈顿距离
棋盘或切比雪夫距离

统计距离族

推土机距离
马哈拉诺比斯距离
布雷柯蒂斯差分
堪培拉距离

二元或布尔距离族

L0 范数
汉明距离
雅克卡相似性

特征度量评估

本节从工程和设计的角度，阐述了如何从视觉度量分类中将特征描述符信息概括到实用的特征度量评估框架(FME)中的问题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传注意FME 旨在作为一个模板，用于捕获高级信息以进行基本分析。

效率变量、成本和收益

可以用简单的术语来衡量特征描述符的效率，例如计算成本和所使用的内存的好处与以准确性、区分度、鲁棒性和不变性的方式提供的好处的对比。该方法在时间、空间和电力成本方面提供了多少价值？效率指标包括:

成本: 计算、内存、时间、功耗
**好处:**提供了准确性、健壮性和不变性属性
**效率:**收益与成本

描述符中包含的数据的有效性各不相同——例如，包含具有很少不变性的描述符的大内存占用量是没有效率的，并且对于少量不变性和准确性的高计算成本也揭示了低效率。我们可以说，有效的特征表示包含最少的字节数和最低的计算成本，提供了最大的区分度、鲁棒性和准确性。局部二进制描述符已经证明了许多鲁棒性属性的最佳效率。

图像重建效率指标

对于特征描述符效率的视觉比较，我们也可以从特征描述符重建图像，然后视觉和统计地分析重建的质量与计算和存储成本。详细的特征描述符可以仅从描述符数据提供原始图像的良好可视化和重建。例如，图 4-15 示出了 HOG 描述符如何使用每 64x128 区域 32780 字节来捕获定向梯度，图 4-16 示出了图像重建，其示出了如何使用每描述符 64 字节来短暂和反常地捕获类似于拉普拉斯或其他边缘滤波器的边缘信息，图 4-17 示出了使用每描述符 128 字节的 SIFT 图像重建。

虽然我们不包括 FME 中的图像重建效率，但该主题在第四章的歧视讨论中有所涉及。

示例特征度量评估

这里有几个例子，展示了如何使用 Vision Metrics 分类法和 FME 来收集摘要描述符信息。

筛选示例

我们使用 SIFT 作为示例基线，因为 SIFT 得到了广泛的认可和精心的设计。

视觉计量分类学 FME

一般鲁棒性属性

| | *总计:* | *5(缩放、照明、旋转、仿射变换、噪声)* |

LBP 示例

LBP 是一个非常简单的特征检测器，有许多变化，用于纹理分析和特征描述。这里我们用最基本的 3x3 LBP 形式作为例子。

视觉计量分类学 FME

一般鲁棒性属性

| | *总计::* | *3(使用 RILBP 的亮度、对比度和旋转)* |

形状因素示例

此示例使用二进制阈值多边形区域。对于这个假设的例子，预处理步骤从自适应二进制阈值处理和形态学形状定义操作开始，测量步骤从基于像素邻域的周界开始，以定义周界边缘，接着从周界点进行质心计算，接着确定从质心开始到达周界的 36 条径向线段。然后分析每个线段以找到形状因子，包括傅立叶描述符的长/短轴。测量假设正在测量单个二进制对象，而真实世界的图像可能包含许多对象。

我们还假设存储器占用空间如下:从质心开始以 10 度增量在 360 度周围获取的 36 个角度样本，36 个 FFT 频谱幅度的浮点，36 个线段长度数组的整数，4 个长/短轴方向和长度的整数，4 个边界框( x，y，dx，dy )的整数，1 个周长的整数，2 个质心坐标的整数，总共 364 + 362 + 42 + 42 + 12 * 22 = 238

视觉计量分类学 FME

一般鲁棒性属性

| | *总计:* | *8 或更多(缩放、旋转、遮挡、形状、仿射、反射、噪声、照明)* |

摘要

本章提出了一个分类法，如图 5-1 所示，将特征描述维度描述为形状、模式和光谱。这种分类法用于将特征描述方法分为多边形形状描述符、局部二元描述符和基空间描述符。这种分类法贯穿全书。此外，为了总结高级特征描述符设计属性，如光谱类型、描述符像素区域大小、距离函数和搜索方法，提出了通用视觉度量分类法。此外，基于不变性和鲁棒性标准属性，包括光照、比例、旋转和透视，开发了通用鲁棒性分类来量化特征描述符的良好性，一次一个属性。由于特征描述符方法被设计成仅处理一些不变性和鲁棒性属性，所以当评估给定应用的特征描述符时，应该单独考虑每个属性。此外，稳健性属性可应用于真实情况数据集的设计，如第七章所述。最后，视觉度量分类和鲁棒性分类被组合以形成特征度量评估(FME)表，从而以概要形式记录特征描述符属性。FME 的一个简单子集用于回顾在第六章中调查的几种特征描述符方法的属性。

¹。

² http://homepages.inf.ed.ac.uk/rbf/CVonline/CVentry.htm 。

六、兴趣点检测器和特征描述符调查

“这些都是谁做的？”

——杰克·斯派洛，加勒比海盗

计算机视觉的许多算法依赖于定位每个图像中的兴趣点或关键点，并根据兴趣点周围的像素区域计算特征描述。这与相关、等方法形成对比，在这些方法中，较大的矩形图案以像素间隔在图像上步进，并在每个位置测量相关性。兴趣点是锚点、，通常为描述符提供比例、旋转和光照不变性属性；描述符增加了更多细节和不变性属性。兴趣点组和描述符一起描述实际的对象。

然而，在特征描述中有许多方法和变化。一些方法使用不锚定在兴趣点的特征，例如在图像中较大的分割多边形结构或区域上计算的多边形形状描述符*、*。其他方法仅使用兴趣点，根本不使用特征描述符。有些方法只使用特征描述符，在图像的规则网格上计算，根本没有兴趣点。

文献中的术语各不相同*。在一些讨论中，兴趣点可能被称为关键点*。用来寻找兴趣点的算法可以称为检测器，用来描述特征的算法可以称为描述符。我们在这项工作中互换使用这两个术语。关键点可以被认为是由(1)兴趣点，(2)角点，(3)边缘或轮廓，以及(4)诸如斑点的较大特征或区域组成的集合；参见图 6-1 。本章概述了设计局部兴趣点检测器和特征描述符的各种方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-1 。关键点的类型，包括角点和兴趣点。(从左到右)台阶、屋顶、拐角、线或边缘、山脊或等高线、最大值区域

兴趣点调谐

对于给定的应用，什么是好的关键点？哪些最有用？哪些应该忽略？调整探测器并不简单。每个探测器都有不同的参数来调整给定图像的最佳结果，并且每个图像在照明、对比度和图像预处理方面都有不同的挑战。此外，每个检测器都被设计用于不同类别的兴趣点，并且必须相应地调整到以过滤结果，为特定特征描述符筛选出一组有用的良好候选。每个特征检测器将与某些描述符一起最佳工作，参见附录 a。

因此，关键点被进一步过滤以对所选择的特征描述符有用。在某些情况下，关键点不适合于产生有用的特征描述符，即使该关键点具有高分和高响应。例如，如果在关键点处计算的特征描述符产生太弱的描述符分数，则关键点和相应的描述符都应该被拒绝。OpenCV 提供了几种使用检测器的新方法，使用户能够在一个通用框架中尝试不同的检测器和描述符，并自动调整参数进行调整和剔除，如下所示:

**DynamicAdaptedFeatureDetector。**该类将使用 adjusterAdapter() 调整受支持的检测器，以仅保留有限数量的特征，并多次迭代检测器参数和重新检测特征，以试图找到最佳参数，仅保留所需数量的最佳特征。一些 OpenCV 检测器提供了一个 adjusterAdapter() ，一些没有；API 允许创建调整器。
AdjusterAdapter。这个类实现了剔除和保留兴趣点的标准。标准可包括 KNN 最近邻匹配、检测器响应或强度、到最近的其他检测到的点的半径距离、局部区域内的关键点的数量、以及可被包括用于剔除不能为其计算良好描述符的关键点的其他度量。
**金字塔适应特征检测器。**该类可用于调整不使用比例空间金字塔的检测器，适配器将创建高斯金字塔并检测金字塔上的特征。
**GridAdaptedFeatureDetector。**该类将图像划分为网格，并调整检测器以找到每个网格单元内的最佳特征。

兴趣点概念

兴趣点可以由各种类型的角、边和极大值形状组成，如图图 6-1 所示。一般来说，一个好的兴趣点必须容易找到，并且理想情况下计算速度很快；希望兴趣点处于计算特征描述符的良好位置。因此，兴趣点是可以围绕其描述特征的限定词或关键点。

目前使用的兴趣点方法背后有各种概念，因为这是一个活跃的研究领域。Mikolajczyk 等人[153]对兴趣点检测器进行了最好的分析，其中包括仿射协变兴趣点检测器的比较框架和分类，其中协变指的是兴趣区域的椭圆形状，这是一种仿射可变形表示。比例不变检测器在圆形区域中被很好地表示。最大值区域和斑点检测器可以采用不规则的形状。参见附录 A 中几个检测器对合成兴趣点和角字母的响应。

检测器一般使用最大值和最小值点，比如梯度峰值和拐角；然而，边缘、脊和轮廓也被用作关键点，如图图 6-2 所示。对于所有应用，没有更好的兴趣点检测方法。Tuytelaars 和 Van Gool [529]提供的简单分类法列出了基于边缘的区域方法(EBR)、最大值或基于强度的区域方法(IBR)、和分割方法 s，以找到可能是具有高熵的斑点或特征的基于形状的区域(SBR) 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-2 。候选边缘兴趣点过滤器。(从左到右)拉普拉斯算子、导数滤波器和梯度滤波器

角通常优于边或孤立的最大值点，因为角是一种结构，可用于计算特征的角度方向。兴趣点是根据颜色分量和灰度亮度计算的。许多兴趣点方法将首先在图像上应用某种高斯滤波器，然后执行梯度算子。首先使用高斯滤波器的想法是减少图像中的噪声，否则噪声会被梯度算子放大。

每个检测器定位对诸如旋转、缩放、透视、遮挡和照明等属性具有不同程度不变性的特征。关于根据标准化数据集的各种鲁棒性和不变性标准测量的兴趣点检测方法的质量和性能的评估，请参见 Mikolajczyk 和 Schmidt [144]以及 Gauglitz 等人[145]。兴趣点检测的一个关键挑战是尺度不变性，因为兴趣点在某些情况下会随着尺度发生显著变化。Lindberg [212]广泛研究了与规模无关的兴趣点方法。

仿射不变量兴趣点已经被 Mikolajcyk 和 Schmid [107，141，144，153，306，311]详细研究过。此外，Mikolajcyk 和 Schmid [519]开发了哈里斯检测器的仿射不变版本。如[541]所示，将几种兴趣点检测方法结合起来形成混合方法通常是有用的，例如，使用 Harris 或 Hessian 来定位合适的最大值区域，然后使用 Laplacian 来选择最佳尺度属性。变化是常见的，基于 Harris 和 Hessian 的检测器可以使用尺度空间方法，而局部二元检测器方法不使用尺度空间。

许多兴趣点方法背后的一些基本概念来自线性代数领域，其中像素的局部区域被视为矩阵。其他概念来自数学分析的其他领域。一些对定位兴趣点有用的关键数学公式包括:

Gradient Magnitude. This is the first derivative of the pixels in the local interest region, and assumes a direction. This is an unsigned positive number.
Gradient Direction. This is the angle or direction of the largest gradient angle from pixels in the local region in the range +π to -π.
**Laplacian.**This is the second derivative and can be computed directionally using any of three terms:

然而，拉普拉斯算子忽略第三项，并计算平均方向的有符号值。
黑森矩阵或黑森。 包含描述曲面曲率的二阶偏导数的方阵。Hessian 具有几个有趣的特性，可用于本节讨论的兴趣点检测方法。
**最大的粗麻布。**与拉普拉斯算子一样，这是基于二阶导数的，但是 Hessian 算子使用二阶导数的所有三项来计算二阶导数作为有符号值最大的方向。
最小的粗麻布。这是基于二阶导数，计算为一个有符号数，并且可能是一个有用的度量，作为最大和最小 Hessian 之间的比率。
**黑森取向，最大值和最小值。**这是+π到-π范围内最大二阶导数的方向，是一个有符号的值，它对应的是一个没有方向的方向。最小的方向可以通过从最大值中加上或减去π/2 来计算。
**黑森行列式，黑森迹，高斯拉普拉斯。**这三个名字都用来描述一个矩阵的迹特征，它可以通过绝对值揭示几何尺度信息，通过值的符号揭示方向。矩阵的特征值可以用行列式来求。
**特征值，特征向量，特征空间。**特征属性对于理解局部像素区域矩阵中的矢量方向很重要。当一个矩阵作用于一个向量，向量方向保持不变，而符号或方向简单颠倒时，向量被认为是一个特征向量，矩阵因子被认为是特征值。因此，特征空间是空间中具有相同特征值的所有特征向量。特征属性对于兴趣点检测、定向和特征检测很有价值。例如，Turk 和 Petland [158]使用通过 PCA 减少到更小的向量集的特征向量进行人脸识别，在他们称为特征脸的方法中。

兴趣点法调查

现在，我们将简要介绍一些常见兴趣点检测器方法的算法和计算方法，包括:

高斯拉普拉斯算子
莫拉瓦茨角探测器
哈里斯和斯蒂芬斯角点检测
史和托马西角点检测器(对 Harris 方法的改进)
高斯人的差异(狗；对数的近似值)
哈里斯方法，哈里斯–海森–拉普拉斯，哈里斯–海森–仿射
黑森行列式
显著区域
苏珊（女子名）
快点，快点，阿加斯特
局部曲率
形态学兴趣点
MSER(在多边形形状描述符一节中讨论)
*注意:许多特征描述符，如 SIFT、SURF、BRISK 等，都提供了自己的检测器方法和描述符方法，参见附录 A 。

拉普拉斯算子和高斯拉普拉斯算子

图像处理中使用的拉普拉斯算子是一种在像素区域中寻找导数或最大变化率的方法。通常，拉普拉斯算子是使用加起来为零的标准卷积核来近似的，例如:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

高斯(LOG) 的拉普拉斯算子简单地是在已经使用高斯平滑内核处理以聚焦边缘能量的区域上执行的拉普拉斯算子；参见 Gun [155]。

莫拉瓦茨角探测器

Moravic 角点检测算法是一种早期的角点检测方法，通过关联每个相邻像素周围的重叠碎片来测试图像中的每个像素。在任何方向上的相关性的强度揭示了关于该点的信息:当在所有方向上都有变化时发现拐角，当沿着边缘方向没有变化时发现边缘。平坦区域在任何方向都不会产生变化。使用两个重叠补片之间的 SSD 来计算相关性差异。相似性通过 SSD 中接近零的差异来衡量。这种方法是计算密集型；见莫拉瓦茨[330]。

哈里斯方法、哈里斯-斯蒂芬斯、希-托马西和黑森型检测器

Harris 或 Harris-Stephens 角点检测器系列【156，365】提供了对 Moravic 方法的改进。Harris 方法的目标是使用局部方向导数的协方差矩阵找到特征方向的最快和最低变化的方向。将方向导数值与得分因子进行比较，以识别哪些特征是拐角，哪些是边缘，哪些可能是噪声。根据算法的公式，哈里斯方法可以提供高旋转不变性、有限强度不变性，并且在算法的一些公式中，使用尺度空间提供尺度不变性，例如哈里斯-拉普拉斯方法【519】【212】。许多哈里斯家族算法可以以计算高效的方式实现。

注意，拐角具有不明确的梯度，因为两个边缘会聚在拐角处，但是在拐角附近，可以用相对于 x 和 y— 的两个不同值来检测梯度，这是哈里斯边角侦测背后的基本思想。

哈里斯方法的变体包括:

Shi、Tomasi 和 Kanade 的角点检测器 [157]是对 Harris 方法的优化，仅使用最小特征值进行鉴别，从而大大简化了计算。
Hessian (Hessian-Affine)角点检测器[153]被设计为仿射不变的，它使用基本的 Harris 角点检测方法，但是使用一些迭代选择标准和 Hessian 矩阵将来自金字塔中几个尺度的兴趣点组合起来。
基本哈里斯算子还存在许多其他变体，例如哈里斯–海森–拉普拉斯【331】，其使用比例选择方法提供改进的比例不变性，以及哈里斯–海森–仿射方法【306，153】。

海森矩阵检测器和海森-拉普拉斯

海森矩阵法，也称为海森行列式(DoH) 法，用于流行的 SURF 算法【160】。它从多尺度图像集中检测感兴趣的对象，其中 Hessian 矩阵的行列式处于最大值，并且使用高斯的二阶偏导数的卷积来计算 Hessian 矩阵算子以产生梯度最大值。

DoH 方法使用积分图像来非常快速地计算高斯偏导数。因此，计算 Hessian 矩阵的性能非常好，并且精度优于许多方法。相关的 Hessian-Laplace 方法【331，306】也对局部极值进行操作，使用多尺度 Hessian 的行列式进行空间定位，使用多尺度 Laplacian 进行尺度定位。

高斯差异

高斯差(DoG) 是高斯拉普拉斯的近似，但是使用两个平滑或高斯滤波图像的差来检测局部极值特征，以更简单和更快速的方式来计算。高斯平滑的思想是去除在给定比例下不相关的噪声伪像，否则噪声伪像会被放大并导致错误的狗特征。在流行的 SIFT 方法[161]中使用了狗的特征，如后面的图 6-15 所示，采用高斯滤波图像的简单差分来识别极大值区域。

显著区域

显著区域【162，163】基于这样一个概念:与周围区域相比，一定范围内的兴趣点应表现出“不可预测”或“令人惊讶”的局部属性或熵。该方法如下进行:

诸如强度或颜色的像素属性的香农熵 E 是在尺度空间上计算的，其中香农熵被用作不可预测性的度量。
熵值位于具有最大值或峰值的尺度空间上*m。*在这个阶段，也确定了最佳尺度。
为每个尺度内的每个峰值处的幅度增量计算概率密度函数(PDF) ，其中使用从距峰值期望半径的圆形窗口取得的像素值的直方图来计算 PDF。
显著性是每个峰值的 E 和 M 的乘积，也与尺度有关。因此最终的检测器是显著的并且对缩放是鲁棒的。

苏珊，特拉科维奇和海德利

SUSAN 方法【164，165】依赖于基于相似亮度的局部区域分割图像特征，这产生了双峰值特征。不使用噪声过滤和梯度。如图 6-3 中的所示，该方法使用一个中心细胞核像素值作为比较参考，与给定半径区域内的相邻像素进行比较，产生一组具有相似亮度的像素，称为单值段同化细胞核(USAN)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-3 。计算兴趣点的苏珊方法。图像的黑色区域是一个与 USAN 的 A、B 和 C 相交的矩形。USAN A 将被标记为边，USAN B 将被标记为角，而 USAN C 既不是边也不是角

每个 USAN 包含关于局部区域中图像的结构信息，并且可以计算每个 USAN 的大小、质心和二阶矩。SUSAN 方法可用于边缘和角点检测。拐角由圆形区域中与中心像素相似的像素比率决定:25%左右的低比率表示拐角，50%左右的高比率表示边缘。苏珊对噪音非常敏感。

Trajkovic 和 Hedly 方法【214】类似于 SUSAN，并且在 USAN 区域中的点、边缘点和角点之间进行区分。

SUSAN 对于噪声抑制也很有用，在第二章中讨论的双边滤波器【302】与 SUSAN 密切相关。苏珊使用相当大的圆形窗户；一些实现使用 37 像素半径的窗口。FAST [138]探测器也类似于 SUSAN，但是使用更小的 7×7 或 9×9 窗口，并且只使用区域中的部分像素而不是全部像素；FAST 产生一个本地二进制描述符。

快，快，吓呆了

快速方法【138】源自 SUSAN 关于双模态分割目标的方法。然而，FAST 依靠圆形图案中的一组相连像素来确定拐角。在可能的 16 个区域中，连接区域的大小通常是 9 或 10；可以选择任意一个数字，称为 FAST9 和 FAST10。众所周知，FAST 计算效率高，匹配速度快；准确度也相当不错。FAST 可以被认为是局部二进制模式 LBP 的相对物。

FAST 不是尺度空间检测器，因此，与 SIFT 中使用的尺度空间方法相比，它可以在给定尺度下产生更多的边缘检测。

如图 6-4 所示，FAST 使用二进制比较，将圆形图案中的每个像素与中心像素进行比较，使用阈值来确定像素是否小于或大于中心像素。产生的描述符按照从 0 到 15 的顺序存储为连续的位向量。此外，由于像素比较模式的循环性质，可以快速翻新并以旋转不变表示存储位向量，如本章稍后讨论的 RILBP 描述符所示；参见图 6-11 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-4 。具有 16 元件圆形采样模式网格的快速检测器。注意，网格中的每个像素都与中心像素进行比较，以产生二进制值，并且每个二进制值都存储在一个位向量中

局部曲率方法

局部曲率方法【208–212】是早期检测角点的方法之一，一些局部曲率方法是第一个被认为在尺度变化下跟踪角点可靠且准确的方法【210】。局部曲率检测梯度幅度和局部表面曲率都很高的点。采用的一种方法是差分方法，在尺度空间上一起计算梯度幅度和水平曲线曲率的乘积，然后选择尺度和空间中的最大值和最小值绝对值。这里显示了该方法的一个公式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

根据所使用的曲率方程，可以采用基本算法的各种公式。为了改善尺度不变性和噪声敏感性，可以使用尺度空间上的方程的归一化公式来修改该方法，如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在较大的比例下，可以检测到不太尖锐但更圆的角点，而在较低的比例下或在单位比例下，可以检测到较小区域上更尖锐的角点。Wang 和 Brady 方法 [213]也使用 2D 表面的局部曲率计算兴趣点，寻找表面曲率快速变化的拐点。

形态学兴趣区域

可以从形态学操作的流水线中确定兴趣点，例如阈值处理，然后是组合或腐蚀和膨胀，以平滑、细化、增长和收缩像素组。如果对于给定的应用正确地完成，这样的形态特征可以是比例和旋转不变的。注意，单纯的形态学运算是不够的；例如，不受约束的侵蚀左侧将缩小区域，直到它们消失。因此，必须将智能添加到形态学管线中，以控制最终的区域大小和形状。对于多边形形状描述符，形态学兴趣点定义了该特征，并且在该特征上计算了各种图像矩，如第三章中的以及本章后面关于多边形形状描述符的章节中所述。

形态学操作可用于在二值、灰度或彩色通道图像上创建感兴趣的区域。为了准备用于形态学的灰度或颜色通道图像，通常使用某种预处理，例如像素重新映射、LUT 变换或直方图均衡化。(这些方法在第二章的中讨论过。)对于二值图像和二值形态学方法，二值阈值化是关键的预处理步骤。已经设计了许多二进制阈值方法，从简单的全局阈值到基于统计和结构核的局部方法。

注意，形态学感兴趣区域方法类似于最大稳定极值区域(MSER) 特征描述符方法，这将在后面的多边形形状描述符部分中讨论，因为这两种方法都在最大值或最小值处寻找连通的像素组。然而，MSER 不使用形态学运算符。

在图 6-5 中显示了一些感兴趣区域检测的形态学和相关操作序列的例子，还可以设计出更多的例子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-5 。寻找感兴趣区域的形态学方法。(从左到右)原始图像、使用 Chan Vese 方法的二进制阈值化和分段图像、骨架变换、修剪骨架变换和距离变换图像。注意，二进制阈值处理需要相当多的工作来为给定的应用正确地设置参数

特征描述符调查

本节提供了关于一些代表性特征描述符方法的调查和观察，无意直接比较描述符。在实践中，特征描述符方法经常被修改和定制。本次调查的目标是检查来自分类的每个特征描述符家族的一系列特征描述符方法，该分类在第五章中介绍:

局部二进制描述符
光谱描述符
基础空间描述符
多边形形状描述符
3D、4D 和体积描述符

对于关键特征描述符方法，我们在此提供一个总结分析:

通用视觉分类法和 FME: 涵盖特征属性，包括光谱、形状和模式、单变量或多变量、计算复杂性标准、数据类型、记忆标准、匹配方法、鲁棒性属性和准确性。
**一般鲁棒性属性:**覆盖光照、比例、透视等多种不变性属性。

这里没有在特征描述符之间进行直接的比较，但是提供了大量的参考文献，用于详细的比较和每种方法的性能信息。

局部二进制描述符

这一族描述符将特征表示为二进制位向量。为了计算特征，比较图像像素点对，并将结果作为二进制值存储在向量中。局部二进制描述符计算效率高，存储效率高，使用汉明距离匹配也效率高。一般来说，与其他方法相比，局部二进制模式方法实现了非常好的准确性和鲁棒性。

多种局部采样模式与局部二进制描述符一起用于设置成对点比较；关于局部二进制采样模式的讨论，参见第四章中关于局部二进制描述符点对模式的章节。我们通过分析本地二进制模式(LBP) 和一些 LBP 变体来开始本地二进制描述符的这一部分，因为 LBP 本身就是一个强大的度量，并且是众所周知的。

局部二进制模式

Ojala 等人[173]于 1994 年开发了局部二元模式(LBP)，作为一种编码模式和对比度以定义纹理的新方法[169，170–173]。LBP 可以用作图像处理算子。LBP 使用围绕每个像素的局部纹理邻域的一组直方图来创建描述符或纹理模型。在这种情况下，局部纹理是特征描述符。

LBP 指标简单而强大；参见图 6-6 。我们涵盖了 LBPs 的一些细节，因为这种强大的纹理度量作为特征描述符有很多应用。此外，数百名研究人员在理论基础领域对 LBP 文献[173]进行了补充，归纳为 2D 和 3D，用作人脸检测的描述符，还应用于时空应用，如运动分析。LBP 的研究在这个时候仍然相当活跃。此外，LBP 被用作图像处理算子，并且已经被用作 SIFT 中的特征描述符改进，具有极好的结果，如本章所述。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-6 。(上图)图像的局部二进制模式表示，其中 LBP 用作图像处理算子，以及累积 LBP 特征的相应直方图。(底部)使用 LBP 纹理度量的分割结果。(图片由施普林格出版社提供，摘自 Matti Pietikä inen 和 Janne Heikkilä著《使用局部二进制模式的计算机视觉》[173])

在其最简单的实施例中，LBP 的目标是为像素创建二进制编码的邻域描述符。它通过使用>运算符将每个像素与其邻居进行比较，并将比较结果 (1，0) 编码成一个二进制数，如后面的图 6-8 所示。来自较大图像区域的 LPB 直方图甚至可以用作信号，并传递到 1D FFT 中以创建特征描述符。LBP 直方图的傅立叶频谱是旋转不变的；参见图 6-6 。然后可以将 FFT 频谱连接到 LBP 直方图上，形成多元描述符*。*

如图图 6-6 所示，LBP 被用作图像处理算子、区域分割方法和直方图特征描述符。LBP 有许多应用。可以使用各种尺寸的成形核在各种尺寸和形状上计算 LBP。一个简单的 3x3 邻域提供了局部特征的基本覆盖，同时也使用了更宽的区域和内核形状。

假设选择 3x3 LBP 内核模式，这意味着对于 256 格直方图，将有 8 个像素比较和多达 2 个 ^{8 个}结果组合。然而，已经证明[18]基于均匀模式减少 8 位 256 仓直方图以仅使用 56 LBP 仓是最佳数量。选择 56 个二进制或统一模式来表示仅两个围绕圆的连续 LBP 模式，该圆由两个相连的连续段组成，而不是所有 256 个可能的模式组合[173，15]。相同的统一模式逻辑适用于尺寸大于 8 位的 LBP。因此，统一模式提供了直方图空间节省和特征比较空间优化，因为需要匹配的特征更少(56 个而不是全部 256 个)。

LPB 特征识别可以遵循图 6-7 中所示的步骤。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-7 。用于特征检测的 LBP 特征流。(图片由英特尔出版社授权使用，来自构建智能系统)

LBP 是通过给局部邻域中的每个像素分配一个二进制加权值，并将像素比较结果作为二进制值相加以创建一个复合 LBP 值来计算的。LBP 包含以紧凑二进制模式编码的区域信息，如图 6-8 所示，因此 LBP 是一个二进制编码的邻域纹理描述符。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-8 。分配的 LBP 加权值。(图片由英特尔出版社授权使用，来自构建智能系统)

假设使用 3×3 的邻域来描述 LBP 模式，可以将 3×3 的矩形区域与圆形区域进行比较，建议以 45 度的增量进行 360 度定向，如图 6-9 中的所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-9 。LBP 方向性的概念。(图片由英特尔出版社授权使用，来自构建智能系统)

计算 3x3 LBP 的步骤如图 6-10 所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-10 。LBP 邻域比较。(图片由英特尔出版社授权使用，来自构建智能系统)

邻域比较

根据允许选择用于比较的邻居的形成内核，将每个像素与其邻居进行比较。在图 6-10 中，所有的像素都用在了成形内核中(全 1)。如果邻居是中心像素的>，则二进制模式为 1，否则为 0。

直方图构成

图像区域上的每个 LBP 描述符被记录在直方图中，以描述累积纹理特征。统一的 LBP 直方图将有 56 个箱，因为只有单连接区域被编入直方图。

可选标准化

使用二的幂的二进制抽取或一些类似的算法，例如 256 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 32，可以将最终直方图减少到更小数量的仓。此外，可以通过对直方图所用的相邻面元的范围进行阈值处理来减小直方图的大小，例如，如果面元 1 至 64 中很少或没有信息被面元化，则忽略面元 1 至 64。

描述符串联

在重叠区域上获得的多个 LBP 可以连接在一起成为更大的直方图特征描述符，以提供更好的区分。

LBP 汇总分类法

光谱:本地双星

特征形状:方形

特征模式:像素区域与中心像素比较

特征密度:每个像素的局部 3×3

搜索方法:滑动窗口

距离函数:汉明距离

鲁棒性:3(亮度、对比度，RILBP 的旋转)

旋转不变 LBP

为了实现旋转不变性，通过局部 LBP 的循环逐位旋转来计算旋转不变 LBP (RILBP) [173]，以找到最小二进制值。最小值 LBP 被用作旋转不变签名，并被记录在直方图仓中。RILBP 的计算效率非常高。

为了说明该方法，图 6-11 显示了三个连续 LBP 位的模式；为了使该描述符旋转不变，该值被左移，直到达到最小值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-11 。通过使用二进制值的循环移位来寻找最小值来计算最小 LBP 的方法。LBP 描述符是旋转不变的。(图片由英特尔出版社授权使用，来自构建智能系统)

请注意，许多研究人员[171，172]正在扩展用于 LBP 计算的方法，以使用局部导数、局部中值或平均值、三元或五元比较函数以及许多其他方法，而不是最初提出的简单二元比较函数。

使用 3D LBPs 的动态纹理度量

动态纹理是当它们从一帧移动到另一帧时变形和改变的视觉特征；示例包括波浪、云、风、烟、树叶和波纹。这里讨论用于跟踪这种动态纹理的基本 LBP 的两个扩展:VLBP 和 LBP-TOP。

LBP(vlbp)卷

为了创建 VLBP [175]描述符，首先通过将至少三个连续的视频帧堆叠在一起成为体积 3D 数据集来创建图像体积。接下来，以所选择的兴趣点为中心，取三个 LBP，从体积中的每个平行平面取一个 LBP，形成概要体积 LBP 或 VLBP，并且将每个正交 LBP 的直方图连接成单个动态描述符向量 VLBP。然后可以逐帧跟踪 VLPB，并重新计算 VLPB 以说明逐帧纹理的动态变化。参见图 6-12 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-12 。(上)从平行平面计算 LBP 的 VLBP 方法[175]。(底部)LBP-从正交平面计算 LBP 的顶部方法[176]。(图片由英特尔出版社授权使用，来自构建智能系统)

LPB 顶部〔??〕

LBP-TOP [176]的创建类似于 VLBP，除了不是从平行平面计算三个单独的 LBP，而是从与兴趣点相交的体积 (x，y，z) 中的正交平面计算，如图图 6-12 所示。3D 复合描述符与 VLBP 大小相同，包含相当于三个平面的数据。每个 LBP 平面的直方图也像 VLBP 一样被连接用于 LBP-TOP。

其他 LBP 变体

如表 6-1 所示，LBP【173】有多种变体。注意，LBP 已经被成功地用作 SIFT、SURF 的替代，并且还被用作纹理度量。

表 6-1 。LBP 变体(来自参考文献[173])

| ULBP(统一 LBP)仅使用 56 个统一的箱，而不是使用 8 位像素可能的全部 256 个箱来创建直方图。统一模式由相连真值的连续段组成。 |
| RLBP(鲁棒 LBP)增加了+比例因子，以消除噪声引起的转换(p1 - p2 +比例) |
| CS-LBP 圆对称，向量数量是 LBP 的一半，相对像素对与 w/中心像素的比较，有助于减少 LBP 面元计数 |
| 高频傅立叶频谱描述符+ LBP |
| MLBP 中值 LBP 使用区域中值代替中心像素值进行比较 |
| M-LBP 多尺度 LBP 组合多个半径 LBP 级联 |
| 多尺度块 LBP；比较小块中的平均像素值 |
| SEMB-LBP:统计有效的 MB-LBP (SEMB-LBP)使用分布中的百分比，而不是 LBP 中 0-1 和 1-0 转换的数量，并重新定义了标准 LBP 中的统一模式。使用温和的 ADA 增强在人脸识别中有效使用[549] |
| 相邻视频帧上或体积内的体积 LBP 将直方图连接在一起以形成更长的向量 |
| LGBP(局部 Gabor 二进制模式)在特征上计算大约 40 个 Gabor 滤波器，LBP 被提取并连接以形成在更多尺度和方向上不变的长特征向量 |
| LEP 局部边缘模式:标准 LBP 之前的边缘增强(Sobel) |
| EBP 椭圆二进制模式标准 LBP，但在椭圆区域而不是圆形区域 |
| EQP 椭圆五进制模式- LBP 从二进制(2)级分辨率扩展到五进制(5)级分辨率(-2，-1，0，-1，2) |
| LTP - LBP 扩展到三进制范围，以处理接近常数的区域(-1，0，1) |
| LLBP 局部线条二元模式-计算线条模式(十字形)上的 LBP，然后使用每个 X/Y 维度的平方的 SQRT 计算幅度度量 |
| TPL BP-[X5]一起计算三个 LBP:中心像素的基本 LBP，加上相邻像素周围的两个 LBP，因此总的描述符是一组重叠的 LBP， |
| FP LBP-[X5]四个 LBP 一起计算:中心像素的基本 LBP，加上相邻像素周围的两个 LBP，因此总描述符是一组重叠的 LBP，xpl BP– |
| *注:TPLBP 和 FPLBP 方法可以扩展到特征空间的 3，4，n 维。大矢量。 |
| TBP 三元(3)二进制模式，类似于 LBP，但是使用三级编码(1，0，-1)来有效地处理等强度或接近等强度的区域，使用两个二进制模式(一个用于+和一个用于-)连接在一起 |
| ETLP -拉长的三元局部模式(椭圆+三元[5]水平 |
| FLBP -模糊 LBP，其中每个像素贡献于一个以上的面元 |
| PLBP 概率 LBP 计算每个像素和中心像素之间的差异大小(更多计算，更多存储) |
| SILTP 尺度不变 LBP 使用 3 部分分段比较函数来补偿和支持强度尺度不变，以处理图像噪声 |
| tLBP -转换编码的 LBP，其中 LBP 中相邻像素之间的编码是顺时针的 |
| dLBP——方向编码 LBP——类似于 CSLBP，但是存储最大值和比较信息(这个像素是大于、小于还是最大值) |
| 与所有九个内核邻居的平均值相比，CBP 中心二进制模式中心像素 |
| S-LBP 语义 LBP 在比色精确空间(如 CIE LAB 等)中完成。)在均匀连接的 LBP 圆形图案上寻找主方向+弧长，用于形成作为描述符的 2D 直方图。 |
| 从中心像素到相邻像素的颜色距离的 F-LBP -傅立叶谱 |
| LDP -局部导数模式(高阶导数)-基本 |
| LBP 是一阶方向导数，它与连接成直方图的其他 n 阶方向导数相结合，当然对噪声更敏感 |
| BLBP-Baysian LBP——LBP 和 LTP 的组合，使用 bay sian 方法向更健壮的模式优化 |
| 用于 LBP 比较的 FLS 滤波、标记和统计框架将 LBP 或任何类型的直方图描述符翻译成允许有效比较的向量空间“贝叶斯局部二元模式纹理描述符” |
| MB-LBP 多尺度块 LBP -比较小块中的平均像素值，而不是单个像素，因此 3×3 像素 PBL 将变成 9×9 块 LBP，其中每个块是 3×3 区域。通过缩放图像并在每个缩放比例下创建渲染，以及创建每个缩放图像的直方图并将直方图连接在一起，来计算直方图。 |
| 基于 PM-LBP 金字塔的多结构 LBP -使用 5 个模板来提取不同级别的不同结构信息 1)高斯滤波器，4 个各向异性滤波器来检测梯度方向 |
| 多尺度选择局部二值特征 |
| RILBP -旋转不变 LBP 旋转容器(二进制 LBP 值)直到达到最大值，最大值被认为是旋转不变的。这是 LBP 旋转不变性最广泛使用的方法。 |
| 用于旋转不变性的 ALBP 自适应 LBP，不是像在标准 LBP 方法中那样移动到最大值，而是找到主向量方向并将向量移动到主向量方向 |
| LBPV -局部二元模式方差-使用局部区域方差来加权像素对 LBP 的贡献，将特征与主方向对齐，确定非主导模式并减少其贡献。 |
| OCL BP——对立颜色 LBP——共同描述颜色和纹理——转换每个颜色通道 LBP，然后通过使用一种颜色作为中心像素和另一种颜色作为邻域来转换对立颜色通道 LBP，因此总共计算 9 个直方图，但是仅使用大小 |
| 每种颜色的 SDMCLBP - SDM (co -LBP)图像用作生成出现矩阵的基础，然后从图像中提取 Haralick 特征以形成多维特征空间。 |
| MSCLBP -多尺度颜色局部二进制模式(将 6 个直方图连接在一起)-使用颜色空间组件 |
| 色调-LBP 对手-LBP(所有 3 个通道)无分量-LBP(在 2 个通道上计算)，光强度变化，强度偏移，强度变化+偏移，颜色变化颜色偏移，定义六个新的操作符:变换的颜色 LBP(RGB)[减去平均值，除以标准差]，对手 LBP，无分量 LBP，色调 LBP，RGB-LBP，nRGB-LBP [x8]“用于视觉对象类别识别的多尺度颜色局部二进制模式”，朱超，查尔斯-埃德蒙比肖，陈黎明 |
| 3D 直方图-3D rgblbp[最佳性能，高内存占用量] -使用统一模式最小化在 RGB-LBP 彩色图像空间上计算的 3D 直方图，每种颜色产生 10 个级别或模式，产生大的描述符:10×10×10 = 1000 个描述符。 |

人口普查

人口普查转换[177]基本上是一个 LBP，和人口普查一样，它使用简单的大于和小于查询来计算和比较结果。Census 记录内核中的中心像素与内核区域中的其他像素之间的像素比较结果。它采用比较和可能的阈值，并将结果存储在二进制向量中。Census 变换还使用了一个称为等级值标量的特性，等级值标量是小于中心像素的像素值的数量。因此，普查描述符同时使用了位向量和等级标量。

普查汇总远景分类法

光谱:局部二元+标量排序

特征形状:方形

特征模式:像素区域与中心像素比较

特征密度:每个像素的局部 3×3

搜索方法:滑动窗口

距离函数:汉明距离

鲁棒性:2(亮度、对比度)

修改普查变换

修改的普查变换(MCT)【205】寻求提高原始普查变换的局部二进制模式鲁棒性。该方法使用 3×3 邻域中的每个像素与 3×3 邻域中所有像素的平均强度的有序比较，生成二进制描述符位向量，其位值被设置为低于所有像素的平均强度的强度。位向量可用于使用每个像素的 MCT 值来创建 MCT 图像。参见图 6-13 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-13 。3x3 MCT 的 511 种可能的二进制模式中的 15 种的缩写集。模式集中的结构核是 MCT 特征空间比较的基础集。结构核形成一个模式基集，它可以表示线、边、角、鞍点、半圆和其他模式

如图图 6-13 所示，MCT 依赖于全套可能的 3×3 二进制模式(2⁹1 或 511 种变化),并使用这些作为二进制模式的核心索引作为 MCT 输出，因为每个二进制模式本身是一个独特的签名，具有很高的识别性。MCT 的最终结果类似于非线性滤波器，它将输出分配给内核索引中的 2 个⁹1 模式中的任何一个。结果表明，对于某些类型的对象识别，MCT 结果优于基本 CT[205]。

简介

如第四章所述，在局部二进制描述符点对模式一节中，以及在图 4-11 中所示，BRIEF [132，133]描述符在局部 31x31 区域使用 256 个点对的随机分布模式进行二进制比较，以创建描述符。BRIEF 的一个关键思想是在局部区域内选择随机的点对进行比较。

BRIEF 是一种局部二进制描述符，在机器人应用中取得了非常好的准确性和性能[203]。BRIEF 和 ORB 关系密切；ORB 是 BRIEF 的面向版本，ORB 描述符点对模式的构建也不同于 BRIEF。众所周知，BRIEF 不能容忍旋转。

简要概述分类法

光谱:本地双星

特征形状:以兴趣点为中心的正方形

特征模式:随机局部像素点对比较

特征密度:兴趣点局部 31x31

搜索方法:滑动窗口

距离函数:汉明距离

鲁棒性:2(亮度、对比度)

圆球

ORB [134]是 Oriented BRIEF 的首字母缩写词，顾名思义，ORB 基于 BRIEF，并通过使用 FAST9 确定角点方向，然后使用 Harris 角点度量对关键点进行排序，从而为 BRIEF 添加旋转不变性；使用 Rosin 的方法【61】通过强度质心来细化角点方向。FAST、Harris 和 Rosin 处理是在以因子 1.4 缩放的图像金字塔的每一级上完成的，而不是普通的八度音阶金字塔缩放方法。ORB 在第四章局部二进制描述符点对模式一节中详细讨论，并在图 4-11 中说明。

应该注意的是，ORB 是一个经过高度优化和精心设计的描述符，因为 ORB 作者对计算速度、内存占用和准确性非常感兴趣。本节中调查的许多描述符主要是研究项目，较少优先考虑实际问题，但 ORB 侧重于优化和实际问题。

与 BRIEF 相比，ORB 提供了一种改进的训练方法，用于为成对像素点采样创建局部二进制模式。BRIEF 在 31x31 窗口中使用随机点对，而 ORB 通过训练步骤在窗口中寻找具有高方差和均值~ .5 的不相关点对，这被证明效果更好。有关可视化球体图案的详细信息，参见图 4-11 。

对于对应搜索，ORB 使用多探针本地敏感哈希(MP-LSH)，，当匹配失败时，在相邻桶中搜索匹配，而不是重新导航哈希树。作者报告说 MP-LSH 需要更少的哈希表，从而导致更低的内存占用。MP-LSH 也比 BRIEF 产生更统一的哈希桶大小。因为 ORB 是基于点对比较的二进制描述符，所以汉明距离用于对应。

据报道 ORB 比 SURF 快一个数量级，比 SIFT 快两个数量级，精度相当。作者在 Pascal 数据集[134]上对超过 24 幅 NTSC 分辨率图像的测试中提供了令人印象深刻的性能结果。

宝珠 ^*

冲浪

撒

|
| — | — | — |
| 15.3 毫秒 | 217.3 毫秒 | 5228.7 毫秒 |

测量结果见参考文献【134】。*

ORB 汇总分类法

光谱:局部二元+方向向量

特征形状:方形

特征模式:经过训练的局部像素点对比较

特征密度:兴趣点局部 31x31

搜索方法:滑动窗口

距离函数:汉明距离

鲁棒性:3(亮度、对比度、旋转，*有限比例)

轻快

BRISK [131，143]是一种局部二进制方法，使用一个圆对称的模式区域形状，总共 60 个点对作为线段排列在四个同心环中，如图图 4-10 所示，在第四章中有详细描述。该方法使用短线段和长线段的点对，这提供了尺度不变性的度量，因为短线段可以更好地映射为精细分辨率，而长线段可以更好地映射为粗糙分辨率。

brisk 算法是独一无二的，它使用了一种适用于尺度空间的新型快速检测器，据报道，与 SURF 相比，其性能提高了一个数量级，精确度相当。该算法的主要计算步骤如下:

在比例空间中使用基于快速或惊骇的选择来检测关键点。
在每个像素采样点执行高斯平滑以获得点值。
创建三组线对:长线对、短线对和未使用的线对(未使用的线对不在长线对或短线对集中；参见图 4-12 。
计算长对之间的梯度，对梯度求和以确定方向。
使用渐变方向来调整和旋转短对。
从短对逐点比较创建二进制描述符。

快速汇总分类法

光谱:局部二元+方向向量

特征形状:方形

特征模式:经过训练的局部像素点对比较

特征密度:快速兴趣点的局部 31x31

搜索方法:滑动窗口

距离函数:汉明距离

鲁棒性:4(亮度、对比度、旋转、比例)

怪胎

FREAK [130]使用一种新颖的受视网膜中央凹启发的多分辨率像素对采样形状，通过训练的像素对来模拟人眼的设计，作为一种由粗到细的描述符，分辨率在中心最高，向外围进一步降低，如图图 4-9 所示。在作者看来，FREAK 展示了许多更好的特性描述设计方法；它集性能、准确性和稳健性于一身。请注意，FREAK 计算速度很快，与其他本地二进制描述符(如 LBP、Census、BRISK、BRIEF 和 ORB)相比具有良好的区分度，并且与 SIFT 相比表现良好。

畸形特征训练过程包括根据训练数据确定二元比较的点对，如图图 4-9 所示。训练方法允许通过加权和选择具有高方差和低相关性的样本点来构建一系列描述符采样模式和形状。首先使用可变大小的半径近似从局部区域平滑每个采样点，以在圆形区域上创建高斯核。圆形区域被设计成与相邻区域有一些重叠，这提高了精确度。

因此，特征描述符被设计成包含存储在向量中的像素对二进制比较的四组 16 字节粗到细描述符的粗到细级联。前 16 个字节是级联中最高分辨率集的粗略值，通常足以找到 90%的匹配特征并丢弃不匹配的特征。FREAK 使用来自 31×31 像素面片采样区域的 45 个点对作为描述符。

通过将点对比较存储在分辨率递减的模式向量的四个级联中，匹配过程从粗略进行到精细，模仿人类视觉系统的扫视搜索机制，当在匹配阶段有早期成功或拒绝时，允许加速匹配性能。总之，怪胎方法非常有效。

畸形汇总分类法

光谱:局部二元由粗到细+方向向量

特征形状:方形

特征模式:31×31 区域像素点对比较

特征密度:兴趣点稀疏局部

搜索方法:在刻度空间上滑动窗口

距离函数:汉明距离

鲁棒性:6(亮度、对比度、旋转、比例、视点、模糊)

光谱描述符

与本地二进制描述符组相比，谱描述符组通常涉及更密集的计算和算法，通常需要浮点计算，并且可能消耗相当多的存储器。在这种分类和讨论中，光谱简单地是可以测量或计算的量，例如光强度、颜色、局部区域梯度、局部区域统计特征和矩、表面法线以及分类数据，例如任何光谱类型的 2D 或 3D 直方图，例如局部梯度方向的直方图。本节讨论的许多方法都使用局部梯度信息。

如前一节所述，局部二进制描述符是一种尝试，旨在摆脱成本更高的频谱方法，以降低功耗并提高性能。在许多情况下，局部二进制描述符提供了与更多计算密集型光谱方法相似的准确性和鲁棒性。

筛选

Lowe [161，178]开发的尺度不变特征变换(SIFT)是用于寻找兴趣点和特征描述符的最著名的方法，提供了对尺度、旋转、照明、仿射失真、透视和相似变换以及噪声的不变性。Lowe 证明，通过一起使用几个 SIFT 描述符来描述一个对象，对遮挡和杂乱有额外的不变性，因为如果一些描述符被遮挡，其他描述符将被发现[161]。我们在这里提供一些关于 SIFT 的细节，因为它设计得很好，而且众所周知。

SIFT 通常用作比较其他视觉方法的基准。作者 David Lowe 的原始 SIFT 研究论文最初几次被主要计算机视觉期刊拒绝发表，结果 Lowe 申请了专利，并采取了不同的方向。据 Lowe 说，“那时我已经决定计算机视觉社区不感兴趣，所以我申请了一项专利，并打算促进它的工业应用。”最终，SIFT 论文发表了，并成为计算机视觉史上被引用最多的文章！

SIFT 是一个完整的算法和处理流水线，既包括兴趣点，也包括特征描述符方法。SIFT 包括在尺度空间中选择高斯(DoG)最大值中心环绕圆形加权差兴趣点以创建尺度不变关键点的阶段(主要创新)，如图图 6-14 所示。围绕尺度不变关键点计算特征描述符。特征提取步骤包括在以几个尺度上导出的最大响应兴趣点为中心的选定位置处，使用 GLOH 变化，从局部梯度幅度到笛卡尔矩形仓或对数极坐标仓，计算梯度的分仓直方图(HOG) 结构。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-14 。(顶部)通过与高斯核卷积获得的一组高斯图像和相应的一组狗图像。(底部)以八度音程为单位。DOG 函数近似于对数梯度或可调旁路滤波器。将特征与缩放的倍频程集中的各种图像进行匹配产生了缩放不变特征

描述符被馈送到匹配流水线中，以找到最接近匹配和第二最接近匹配之间的最近距离比率度量，该度量一起考虑主匹配和次匹配，并且如果它们太相似，则拒绝两个匹配，假设一个或另一个可能是假匹配。局部梯度幅度由与金字塔标度级别成比例的强度值加权，然后装入局部直方图中。总之，SIFT 是一个经过深思熟虑和精心设计的多尺度局部特征描述符。

彩色图像 SIFT 的一种变体被称为 CSIFT [179]。

下面是基本的 SIFT 描述符处理流程(注意:匹配阶段被省略，因为本章关注的是特征描述符和相关度量):

创建一个比例空间金字塔

八度标度 n/2 图像金字塔与标度空间中的高斯滤波图像一起使用。高斯模糊量与尺度成正比，然后用高斯差分(DoG)方法捕捉金字塔中相邻图像中的兴趣点极值极大值和极小值。图像金字塔包含五个级别。SIFT 还使用双比例第一金字塔等级，使用两倍于原始放大倍数的像素来帮助保留精细细节。这项技术将稳定关键点的数量增加了大约四倍，这是非常显著的。否则，计算原始图像上的高斯模糊会产生丢弃高频细节的效果。参见图 6-15 和图 6-16 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-15 。SIFT DoG 作为金字塔尺度中高斯滤波图像之间的简单算术差

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-16 。使用尺度不变极值检测的 SIFT 兴趣点或关键点检测，其中中间八度音阶中的暗像素在 3x3x3 区域内与其相邻八度音阶中的 26 个邻居进行比较，这包括局部尺度上的 8 个邻居加上相邻八度音阶(向上或向下)上的 9 个邻居

确定比例不变的兴趣点

如图 6-16 所示，候选兴趣点是从金字塔中三个相邻八度区的狗图像的 26 个相邻像素之间的局部最大值或最小值中选择的。换句话说，兴趣点是尺度不变的。

通过分析局部 26 像素邻域内的局部对比度、局部噪声和局部边缘存在，进一步限定所选兴趣点以实现不变性。除了原始方法中的那些方法之外，还可以使用各种方法，并且几种技术一起使用来选择最佳兴趣点，包括小区域上的局部曲率插值，以及平衡边缘响应以包括主要和次要边缘。关键点在尺度和空间上被定位到亚像素精度。因此，完整的兴趣点对于比例是不变的。

创建特征描述符

围绕所选兴趣点的大小为 16×16 像素的局部区域或小块是特征向量的基础。计算 16×16 小块中的局部梯度的幅度和梯度方向，并将其存储在 HOG(梯度直方图)特征向量中，以循环对称的方式对其进行加权，以降低远离中心兴趣点的点的权重，使用高斯加权函数围绕该中心兴趣点计算 HOG。

如图 6-17 所示，4x4 梯度宁滨方法允许梯度在描述符中四处移动并组合在一起，从而为可能改变局部梯度位置的各种几何失真提供不变性，类似于人类视觉系统对视网膜上梯度 3D 位置的处理【248】。SIFT HOG 对缩放、对比度和旋转具有合理的不变性。使用三线性插值用梯度信息填充直方图仓，并归一化以提供照明和对比度不变性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-17 。(左侧和中间)梯度幅度和方向被分入 SIFT HOG 的直方图中。(右)GLOH 描述符

还可以使用称为梯度位置和方向直方图(GLOH)的 HOG 描述符的变体来执行 SIFT，其使用对数极坐标直方图格式而不是笛卡尔 HOG 格式；参见图 6-17 。GLOH 对数极坐标直方图的计算很简单，如下图所示，从用于笛卡尔 HOG 直方图的笛卡尔坐标，其中矢量幅度是斜边，角度是反正切。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如图图 6-17 所示，SIFT HOG 和 GLOH 本质上是 3D 直方图，在这种情况下直方图 bin 值是梯度幅度和方向。因此，描述符向量大小为 4x4x8=128 字节。4×4 描述符(中间图像)是左图像中每个 4×4 组的组合的八向梯度方向和幅度的一组直方图，在笛卡尔坐标中，而 GLOH 梯度幅度和方向在极坐标中被分箱，在大宁滨区域上被间隔成 17 个箱。SIFT-HOG(左图)还使用一个加权因子，随着距中心距离的增加，以循环对称的方式平滑地减少梯度信息的贡献。

SIFT 总体计算复杂度较高【180】，如表 6-2 所示。注意，由于用于方向分配和描述符生成的所有局部区域梯度计算，包括具有三线性插值的直方图宁滨，特征描述是计算最密集的。SIFT 中开发的梯度方向直方图是一项关键创新，提供了强大的鲁棒性。

表 6-2 。SIFT 计算复杂性(摘自 Vinukonda [180])

筛选流水线步骤

复杂度

操作次数

|
| 高斯模糊金字塔 | N²U²s | 4N?? 2T4 W2s |
| 高斯金字塔的差异 | sN * ² | 4N*?? 2T4 s |
| 尺度空间极值检测 | sN * ² | 104 sN ² |
| 关键点检测 | 【sn】 | 100 |
| 方向分配 | 【sn】^(1-) | 48sN*??【2】 |
| 描述符生成 | 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 (x^【2】n^ab+ | 【1520】【x】^【2】(+】 |

SIFT 的结果特征向量是 128 字节。但是，有一些方法可以降低维数并改变描述符，这将在下面讨论。

筛选汇总分类法

光谱:局部梯度幅度+方向

特征形状:方形，圆形加权

特征模式:圆形对称加权的正方形

特征密度:在局部 16x16 狗兴趣点处稀疏

搜索方法:在刻度空间上滑动窗口

距离函数:欧几里德距离(*或带有 RootSIFT 改进的 Hellinger 距离)

鲁棒性:6(亮度、对比度、旋转、缩放、仿射变换、噪声)

SIFT-PCA

Ke 和 Suthankar [183]开发的 SIFT-PCA 方法使用主成分分析(PCA)得出的替代特征向量，基于归一化梯度补丁，而不是 SIFT 中使用的加权平滑梯度直方图。此外，SIFT-PCA 将 SIFT 描述符的维数减少到更小的元素集。最初报道 SIFT 使用 128 个向量，但是使用 SIFT-PCA，向量减少到更小的数目，例如 20 或 36。

SIFT-PCA 的基本步骤如下:

基于来自局部 41×41 图像碎片的梯度构建特征空间，产生 3042 个元素向量；这个向量是普通 SIFT 流水线的结果。
计算补片的局部图像梯度。
使用对每个特征向量的协方差矩阵的 PCA，从特征空间创建缩减尺寸的特征向量。

SIFT-PCA 在对图像扭曲的鲁棒性方面比 SIFT 有所改进，并且特征向量的尺寸越小，匹配速度越快。作者指出，虽然 PCA 在应用于图像补片特征时通常不是最佳的，但该方法对于在尺度空间中定向和定位的 SIFT 风格梯度补片工作良好[183]。

SIFT

梯度位置和方向直方图(GLOH) [144]方法使用极坐标和径向分布仓，而不是 SIFT 使用的笛卡尔坐标风格直方图宁滨方法。据报道，它为一些真实情况数据集提供了比 SIFT 和其他描述符更高的准确性和鲁棒性[144]。如图 6-17 中的所示，GLOH 使用一组 17 个径向分布的面元对极坐标中的梯度信息求和，产生一个 272 面元的直方图。中央纸盒不是定向的。使用 PCA 减小描述符的大小。GLOH 已经被用来改造 SIFT。

筛-筛改装

具有错误恢复能力的尺度不变特征检测器(SIFER)【224】方法提供了标准 SIFT 流水线的替代方案，据报道，对于某些标准，可测量的精度提高高达 20%。然而，准确性是有代价的，因为性能大约是 SIFT 的两倍。SIFER 的主要贡献包括使用更高粒度的图像金字塔表示来改进尺度空间处理，以及使用余弦调制高斯滤波器进行更好的尺度调谐滤波。

该方法的主要步骤如表 6-3 所示。使用余弦调制高斯(CMG) 滤波器模糊尺度空间金字塔，这允许八度音阶的每个尺度被细分为六个尺度，因此结果是更好的尺度精度。

表 6-3 。SIFT、SURF 和 SIFER 流水线的比较(改编自[224])

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由于 CMG 的性能不好，SIFER 提供了一种快速近似方法，可以提供合理的精度。特别注意图像尺度和滤波器尺度以增加检测的准确性，因此余弦被用作高斯滤波器的带通滤波器以尽可能地匹配尺度，在尺度空间上调谐滤波器组中的滤波器，对于每个倍频程的六个尺度中的每一个具有良好匹配的滤波器。CMG 提供了比 SIFT 高斯二阶导数方法更好的错误恢复能力。

SIFT CS-LBP 改装

SIFT-CSLBP 改进方法[202，173]通过用计算效率更高的 LBP 算子代替 SIFT 梯度计算，并通过创建相似的直方图面元化的方向特征向量，组合了 SIFT 和中心对称 LBP (CS-LBP) 的最佳属性。LBP 的创建和匹配在计算上都比 SIFT 描述符简单。

CS-LBP 描述符首先将自适应噪声去除滤波器(Weiner 滤波器是本工作中使用的一种滤波器)应用于自适应噪声去除的局部补丁，这保持了局部对比度。CS-LBP 不是计算所有 256 个可能的 8 位局部二进制模式，而是只计算 16 个中心对称模式来降低维数，如图图 6-18 所示。

* 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-18 。用于降维的 CS-LBP 采样模式

不是使用 SIFT 循环加权函数来加权直方图仓，而是不使用加权，这减少了计算。像 SIFT 一样，CS-LBP 宁滨方法使用 4×4 区域笛卡尔网格；使用更简单的宁滨双线性插值，而不是 SIFT 中的三线性插值。总体而言，CS-LCP 改造方法简化了 SIFT 计算流水线，并以相当的精度提高了性能；据报道，某些数据集的准确性更高。参见表 6-4 。

表 6-4 。SIFT 和 CSLBP 改造性能(根据参考文献[202])

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

RootSIFT 改造

RootSift 方法[174]为 Sift 流水线提供了一组简单、关键的增强功能，从而提高了计算性能并略微提高了准确性，如下所示:

**Hellinger distance:**RootSIFT 使用 helling er distance 代替欧氏距离进行对应，对 SIFT 对象检索流水线进行了简单的性能优化。SIFT 流水线的所有其他部分保持不变；仍然采用 k-means 来构建特征向量集，并且对于更大的特征向量集，仍然可以使用其他近似最近邻方法。作者声称，对 SIFT 代码进行简单修改以执行 Hellinger 距离优化而不是欧几里德距离可以是对代码的一组简单的单行改变。RootSIFT 中的其他增强是可选的，将在下面讨论。
**特征增强:**这种方法提高了总召回率。由特科特和劳[332]开发，应用于特征。来自数据库中相同对象的相似视图的特征向量或视觉单词被关联成用于在相似特征之间寻找对应关系的图，而不是仅仅依赖于单个特征。
判别查询扩展(DQE): 该方法在训练时增加查询扩展。通过在线性 SVM 中使用正的和负的训练数据，将邻近区域内的特征向量平均成对数据库中的重新查询有用的新特征向量，从而将这些特征向量相关联；参考文献[174]报道了更好的一致性。

通过将上述三项创新结合到 SIFT 流水线中，性能、准确性和鲁棒性都得到了显著提高。

责难和明星

中心环绕极值或 CenSurE [ 185，184，145]方法提供了真正的多尺度描述符，在金字塔的所有尺度上使用全空间分辨率来创建特征向量，这与 SIFT 和 SURF 形成对比，SIFT 和 SURF 在二次采样像素上找到极值，这在较大尺度上损害了精度。CenSurE 类似于 SIFT 和 SURF，但是一些关键的区别总结在表 6-5 中。对 OpenCV 中最初的 CenSurE 算法进行了修改，该算法被命名为 STAR descriptor。

表 6-5 。CenSurE 与 SIFT 和 SURF 之间的主要区别(改编自参考文献[185])

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者非常关注创建计算高效、内存高效、性能和准确性高的方法[185]。CenSurE 定义了一种寻找极值的优化方法，首先在所有尺度上使用拉普拉斯算子，然后使用 Harris 方法进行过滤，以丢弃响应较弱的角点。

与 SIFT 和 SURF 相比，CenSurE 的主要创新如下:

Use of bilevel center-surround filters, as shown in Figure 6-19, including Difference of Boxes (DoB), Difference of Octagons (DoO) and Difference of Hexagons (DoH) filters, octagons and hexagons are more rotationally invariant than boxes. DoB is computationally simple and may be computed with integral images vs. the Gaussian scale space method of SIFT. The DoO and DoH filters are also computed quickly using a modified integral image method. Circle is the desired shape, but more computationally expensive.

图 6-19 。使用二进制核值 1 和-1 对拉普拉斯算子进行两级中心环绕滤波器形状近似，这可以使用带符号加法而不是乘法来有效地实现。注意，圆形是期望的形状，但是其他形状使用积分图像更容易计算，尤其是矩形方法
为了找到极值，使用 3x3x3 邻域，在每个像素处使用七级尺度的过滤器空间来计算 DoB 过滤器。尺度空间搜索使用非八度音程边界上的中心环绕类 Haar 特征来组成，其中滤波器块大小[1，2，3，4，5，6，7]覆盖[1 和 7]之间的 2.5 个八度音程，产生五个滤波器。这种音阶排列提供了比八度音阶更多的辨别力。应用阈值来消除每个级别的弱滤波器响应，因为弱响应可能不会在其他级别重复。
使用重叠积分图像区域的组合来快速计算非矩形过滤器形状，例如八边形和六边形；注意八边形和六边形避免了矩形区域造成的伪影，增加了旋转不变性；参见图 6-19 。
使用 SURF 方法的快速修改版本应用责难滤波器，称为修改的直立 SURF(MU-SURF)【188，189】，稍后与其他 SURF 变型一起讨论，其通过使用 HAAR 响应的重叠子区域的扩展集合来特别注意描述符中的框的边界效应。

责难汇总分类法

光谱:中心环绕形状的二级过滤器

特征形状:八边形、圆形、方形、六边形

特征模式:过滤器形状遮罩，24x24 最大区域

特征密度:局部兴趣点稀疏

搜索方法:尺度空间上的密集滑动窗口

距离函数:欧几里德距离

鲁棒性:5(亮度、对比度、旋转、缩放、仿射变换)

关联模板

用于特征描述和检测的最广为人知和显而易见的方法之一是简单地拍摄完整特征的图像，并通过直接像素比较来搜索它——这被称为相关性。相关包括使包含第一像素区域模板的滑动窗口跨过第二图像区域模板，并使用诸如差和(SAD) 的方法执行简单的逐像素区域比较；得到的分数就是相关性。

由于图像照明可能变化，典型地，相关模板和目标图像首先被强度归一化，典型地通过减去平均值并除以标准偏差；然而，也可以使用对比度调整和 LUT 变换。相关通常在矩形窗口的空间域中实现，但也可以与频域方法一起使用[4，9]。

相关性用于基于视频的目标跟踪应用中，其中在小的相邻区域上从帧到帧的正交运动的平移占主导地位。例如，视频运动编码器使用相关性找到图像内的区域或块的位移，因为视频中的小块运动通常与笛卡尔轴正交，并且很好地映射到使用相关性找到的简单位移。根据所使用的图像和方法，相关可以提供 1/4 到 1/20 像素之间的亚像素精度；参见参考文献[151]。对于视频编码应用，相关性允许有效地编码和精确地计算相应块的运动矢量位移。相关性服从固定功能硬件加速。

相关的变化包括互相关(滑动点积)归一化互相关(NCC) 、零均值归一化互相关(ZNCC) 和纹理自相关(TAC)。

一般来说，对于恒定大小的单空间模式区域的正交运动，相关是一个好的检测器。它提供子像素精度，对照明具有有限的鲁棒性和精度，但对旋转或缩放几乎没有鲁棒性。然而，为了克服这些鲁棒性问题，可以在图形处理器中并行使用多个纹理采样器来快速缩放和旋转相关模板，从而加速尺度空间上的相关以及各种几何平移。然后，相关匹配可以通过 SIMD SAD 指令或者使用视频编码引擎中的快速固定函数相关器来完成。

相关性如图 6-20 中的所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-20 。使用扫过矩形区域的三角形模板区域的数字相关的简化模型。最佳相关性显示在最高点的位置

关联摘要分类法

光谱:相关性

特征形状:方形、矩形

特征模式:密集

特征密度:可变大小的内核

搜索方法:密集滑动窗口

距离功能:SSD 典型，其他可能

鲁棒性:1(照明，亚像素精度)

哈尔特征

HAAR-like 特征[4，9]通过 Viola Jones [186]算法在计算机视觉领域得到推广。哈尔特征是基于矩形模式的特定集合，如图图 6-21 所示，其近似基本哈尔小波，其中每个哈尔特征由矩形内像素的平均像素值组成。这是使用积分图像有效计算的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-21 。类哈尔特征的例子

通过使用矩形要素中的平均像素值，目的是在相邻区域中找到一组小模式，其中较亮或较暗的区域相邻可能会显示一个要素-例如，较亮的脸颊紧挨着较暗的眼窝。然而，HAAR 特征有缺点，因为矩形本质上在超过 15 度时不是旋转不变的。此外，矩形内像素值的整合破坏了精细的细节。

根据要检测的特征的类型，例如眼睛，选择一组特定的 HAAR 特征来显示眼睛/脸颊细节和眼睛/鼻子细节。例如，具有两个矩形的 HAAR 图案可用于检测边缘，而具有三个矩形的图案可用于线条，具有一个插入矩形或四个矩形的图案可用于单一对象特征。注意，哈尔特征可以是旋转的集合。

当然，HAAR 图案的比例是一个问题，因为给定的 HAAR 特征只对适当比例的图像起作用。图像金字塔与其他技术一起用于 HAAR 特征检测，以便在给定应用的最佳网格尺寸中在图像上步进搜索窗口。解决特征缩放的另一种方法是使用一组更广泛的缩放 HAAR 特征来在特征空间而不是图像空间中执行金字塔化。解决哈尔特征粒度和矩形形状的一种方法是使用重叠的哈尔特征来近似八边形和六边形；参见图 6-19 中的责难和星形方法。

哈尔特征与小波密切相关[227，334]。小波可以被认为是早期 Gabor 函数概念的延伸。这里我们只提供小波和 Gabor 函数的简短讨论；更多讨论见第二章。小波是一组正交的小持续时间函数。每组小波被设计成满足定位短期信号现象的各种目标。没有单一的小波函数；相反，当设计小波时，首先将母小波设计为小波族的基，然后使用母小波到基集中的平移和压缩来导出子小波。小波被用作一组非线性基函数，其中每个基函数可以根据需要被设计成最佳地匹配输入函数中的期望特征。因此，与使用由正弦和余弦函数组成的统一基函数集(如傅立叶变换)的变换不同，小波使用复杂且本质上不均匀的动态基函数集。小波可以用来描述非常复杂的短期特征，这在一些特征检测应用中可能是一个优势。

然而，与积分图像和 HAAR 特征相比，小波在计算上是昂贵的，因为它们表示复域中的复函数。由于简单的矩形形状和计算的简单性，通常使用哈尔 2D 基函数，特别是当哈尔特征是从积分图像中导出时。

哈尔摘要分类法

光谱:整体箱式过滤器

特征形状:方形、矩形

特征模式:密集

特征密度:可变大小的内核

搜索方法:典型网格搜索

距离函数:简单的差异

鲁棒性:1(照明)

具有哈尔式特征的维奥拉·琼斯

Viola Jones method [186]是一种基于 HAAR-like 特征的特征检测流水线框架，使用感知器学习算法来训练检测器匹配网络，该网络由三个主要部分组成:

用于快速计算类哈尔特征的积分图像。
ADA-BOOST 学习算法通过将具有良好匹配性能的强分类器与在训练过程中通过调整加权因子而“增强”的弱分类器相结合，来创建强模式匹配和分类器网络。
将分类器组合成检测器级联或漏斗，以在级联的早期阶段快速丢弃不想要的特征。

由于在单个图像中可能会发现数千个 HAAR 模式匹配，因此必须快速进行特征计算。为了快速进行 HAAR 模式匹配计算，首先将整个图像处理成积分图像。使用滑动窗口方法在图像的每个区域搜索已知的哈尔特征，该方法以某个选定的间隔步进，例如每 n 个像素，并且检测到的特征被馈送到被称为哈尔级联分类器的分类漏斗中。漏斗的顶部由产生低假阳性和假阴性的特征集组成，因此级联的一阶结果包含图像的高概率区域以供进一步分析。HAAR 特征变得越来越复杂，越来越深入到级联的漏斗中。利用这种布置，如果没有找到期望的 HAAR 特征，则图像区域尽可能快地被拒绝，从而最小化处理开销。

一个完整的 HAAR 特征检测器可以将数百或数千个 HAAR 特征组合成一个最终的分类器，其中不仅特征本身可能是重要的，而且特征的空间排列也是重要的，例如，特征之间的距离和角度关系可以用于分类器中。

冲浪〔??〕

加速鲁棒特征方法(SURF) [160]在尺度空间中操作，并使用基于 Hessian 矩阵的行列式最大值点的快速 Hessian 检测器。SURF 使用 3x3x3 邻域上的比例空间来定位 bloblike 兴趣点特征。为了找到特征方向，在圆形半径内围绕每个兴趣点的局部区域中计算一组 HAAR-like 特征响应，在兴趣点的匹配金字塔尺度上计算。

如图 6-22 中的所示，使用大小为外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传窗口，找到局部哈尔特征集的主导方向分配。这个滑动扇形窗口以一定间隔围绕兴趣点旋转。在滑动扇形区域内，所有 HAAR 特征被求和。这包括水平和垂直响应，产生一组方向向量；选择最大的向量来表示主要特征方向。作为比较，SURF 整合梯度以找到主导方向，而 SIFT 使用梯度方向直方图来记录方向。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-22 。(左)在 SURF 中使用的滑动扇形窗口，用于计算 HAAR 要素的主要方向，从而为 SURF 要素添加旋转不变性。(右)特征向量构建过程，显示了包含细分为 4x4 子区域和 2x2 子区域的 4x4 区域的网格

为了创建 SURF 描述符向量，围绕兴趣点建立 4×4 区域的矩形网格，类似于 SIFT，并且该网格的每个区域被分割成 4×4 子区域。在每个子区域内，在 5×5 样本点上计算 HAAR 小波响应。使用圆形对称高斯加权因子对每个 HAAR 响应进行加权，其中加权因子随着距中心兴趣点的距离而减小，这类似于 SIFT。每个特征向量包含四个部分:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对每个子区域的小波响应 d _x 和 d _y 求和，并且响应|d_x|和|d_y|的绝对值提供强度变化的极性。最终的描述符向量是 4x4x4: 4x4 区域，每个区域有四个部分，总向量长度为 64。当然，通过修改基本方法可以设计出其他的向量长度。

如图 6-22 所示，SURF 梯度网格根据滑动扇形窗口过程中计算的主导方向旋转，然后在每个正方形区域中计算小波响应，相对于宁滨到特征向量的方向。每个小波的方向和d_x， d _y ，|d_x|，|d_y|都记录在特征向量中。

SURF 和 SIFT 流水线方法在实施步骤和最终精度方面通常是可比较的，但是与 ORB 基准测试相比，SURF 的计算速度比 SIFT 快一个数量级[134]。然而，本地二进制描述符，如 ORB，比 SURF 快另一个数量级，对许多应用具有相当的准确性[134]。有关详细信息，请参阅本章前面有关本地二进制描述符的部分。

冲浪汇总分类法

光谱:整体箱式过滤器+方向向量

特征形状:哈尔矩形

特征模式:密集

特征密度:在 Hessian 兴趣点稀疏

搜索方法:尺度空间上的密集滑动窗口

距离函数:马氏还是欧几里得

鲁棒性:4(比例、旋转、照明、噪声)

冲浪的变化

SURF 描述符[188，189]的一些变化值得讨论，如表 6-6 所示。特别感兴趣的是 G-SURF 方法[188]，该方法使用局部区域规范坐标系的微分几何概念[190]来计算特征。因为规范坐标不是全局的，而是图像特征的局部的，所以规范空间特征在几何精度方面具有优势。

表 6-6 。SURF 变体(如 Alcantarilla 等人所讨论的。阿尔[188])

冲浪

圆形对称高斯加权方案，20x20 网格

梯度直方图(HOG)和变体

梯度直方图(HOG)方法[106]旨在用于图像分类，并依赖于在重叠块的密集网格上计算局部区域梯度，而不是在感兴趣的点上。HOG 适用于某些应用，例如人物检测，其中图像中的特征非常大。

HOG 对原始数据进行操作；虽然许多方法依赖高斯平滑和其他滤波方法来准备数据，但 HOG 是专门为使用所有原始数据而设计的，不会引入去除细微细节的滤波伪像。作者展示了使用这种方法的明显好处。这是一个权衡:滤波伪像如平滑 vs. 图像伪像如精细细节。HOG 方法显示了原始数据的优先结果。参见图 4-12 ，显示了一个猪描述符的可视化。

HOG 方法的主要方面如下:

原始 RGB 图像在没有色彩校正或噪声过滤的情况下使用，使用其他色彩空间和色彩伽马调整对于增加的成本提供了很少的优势。
优选 64×128 的滑动检测器窗口；还测试了 56x120 和 48x112 大小的窗户。在该检测器窗口内，定义了总共 8×16×8 的像素块区域用于梯度的计算。块大小是可调的。
对于每个 8×8 像素块，总共计算 64 个局部梯度幅度。首选的方法是 *x/y 中简单的行和列导数 -1，0，1】；*尝试了其他梯度滤波方法，但使用或不使用高斯滤波的较大滤波器会降低精度和性能。为每个颜色通道计算单独的梯度。
使用双线性内插，将局部梯度幅度分仓到边缘方向的 9 仓直方图中，将维度从 64 量化到 9；9 个垃圾箱似乎无关紧要。注意，可以使用矩形 R-HOG 或圆形对数极坐标 C-HOG 宁滨区域。
将梯度幅值直方图值归一化为单位长度，以提供照明不变性。归一化是成组执行的，而不是在单个直方图上执行的。在检测器窗口内使用重叠的 2×2 直方图块；块重叠方法减少了尖锐的伪像，并且 2×2 的区域大小似乎效果最好。
对于 64×128 像素检测器窗口方法，定义了总共 128 个 8×8 像素块。每个 8×8 块具有四个单元，用于计算独立的 9-bin 直方图。描述符的总大小为 8x16x4x9=4608。

注意，滑动窗口和块大小的各种公式被用于处理特定的应用领域。参见[图 4-12 ，显示了使用 7x15 8x8 像素单元计算的 HOG 描述符的可视化。HOG [106]设计方法的主要发现包括:

原始数据中精细尺度处的突变边缘是梯度计算中的准确性所需要的，并且后处理和归一化梯度箱稍后工作良好。
局部对比度的 L2 式块归一化是优选的，并且提供了优于全局归一化的精度；注意，局部区域块被重叠以帮助归一化。
在直方图宁滨过程中取消 L2 块归一化阶段会降低 27%的准确性。
HOG 特征比 HAAR 型检测器表现得好得多，并且当我们考虑 HAAR 小波是积分的无方向值时，这是有意义的，而局部 HOG 区域上的梯度幅度和方向提供了更丰富的光谱。

生猪分类汇总

光谱:局部区域梯度直方图

特征形状:矩形或圆形

特征模式:密集的 64x128 典型矩形

特征密度:密集重叠块

搜索方法:标度空间上的网格

距离函数:欧几里得

鲁棒性:4(光照、视点、比例、噪声)

PHOG 及相关方法

定向梯度金字塔直方图(PHOG) [191]方法是为全局或区域图像分类而设计的，而不是局部特征检测。PHOG 使用在倍频程网格区域细分中遍布整个图像的特征之间的空间关系，将区域 HOG 特征与整个图像区域特征相结合；参见图 6-23 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-23 。在整个图像上计算的一组 PHOG 描述符，使用倍频程网格单元来限制边缘信息。(左中)一个直方图。(右中)四个直方图串联在一起。(右)16 个直方图串联显示

PHOG 类似于相关工作，使用由粗到细的区域直方图网格，由 Lazebni、Schmid 和 Ponce [534]称为空间金字塔匹配，使用定向边缘直方图和 SIFT 特征提供多类分类。它也类似于早期在逐步细化的网格上对级联直方图要素金字塔所做的工作，称为金字塔匹配核，由 Grauman 和 Darrell [535]开发，使用加权多分辨率直方图交集计算对应关系。参考文献[55]中描述了使用多分辨率直方图进行纹理分类的其他相关早期工作。

PHOG 描述符捕获了几个特征变量，包括:

**形状特征，**源自基于梯度特征的边缘的局部分布，该梯度特征受到 HOG 方法的启发[106]。
**空间关系，**通过计算一组倍频程网格单元上的直方图特征，在整个图像上具有尺寸越来越细的块。
**外观特征，**使用在规则间隔的密集网格上计算的密集 SIFT 描述符集。演示了 PHOG 计算彩色图像的 SIFT 向量；HSV 颜色空间的结果在[191]中提供。

一组训练图像被用于为一类图像(例如汽车或人)生成一组 PHOG 描述符变量。使用 K-means 聚类将 PHOG 特征的训练集减少到一组几百个视觉单词，以用于特征匹配和图像分类。

PHOG 的一些关键概念如图 6-23 所示。对于特征形状，使用 Canny 边缘检测器计算边缘，使用 Sobel 算子计算梯度方向。梯度方向宁滨通过梯度方向(HOG)在相邻的直方图条柱之间线性插值，每个条柱代表边缘的角度。针对整个图像中每个尺寸的网格单元计算 HOG 向量。最终的 PHOG 描述符由来自每个网格级别的所有单个 HOG 直方图的加权串联组成。八度网格单元区域之间没有尺度空间平滑来减少细节。

如图图 6-23 所示，最终的 PHOG 包含了所有连接在一起的猪。请注意，对于中左图像，全网格大小的单元格产生 1 个 HOG，对于中右图像，半八度网格产生 4 个 HOG，对于右图像，细网格产生 16 个 HOG 向量。最终的 PHOG 被归一化为 1，以减少由于边缘或纹理集中而产生的偏差。

PHOG 摘要分类法

光谱:全局和区域梯度方向直方图

特征形状:矩形

特征模式:瓷砖的密集网格

特征密度:密集平铺

搜索方法:网格区域，无搜索

距离函数:l2 范数

鲁棒性:3(对光照、视点、噪声有一定不变性的图像分类)

雏菊和雏菊

菊花描述符[214.309]受 SIFT 和类 GLOH 描述符的启发，设计用于密集匹配应用，如立体映射和跟踪，据报道比 SIFT 快 40%。参见图 6-24 。Daisy 依赖于一组径向分布且大小增加的高斯卷积核，这些卷积核重叠并类似于花状形状(Daisy)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-24 。(左)菊花图案区域，由四组八个重叠的同心圆组成，外圆中的高斯模糊增加，其中每个圆的半径与高斯核区域标准偏差成比例。重叠的圆形区域提供了针对相邻区域过渡伪影的一定程度的过滤。(右)一个假设的二元遮挡遮罩；较暗的区域表示匹配期间描述符中可能被遮挡和“关闭”的点

Daisy 不需要局部兴趣点，而是在每个像素密集地计算描述符，因为预期的应用是立体映射和跟踪。Daisy 不是像 SIFT 和 GLOH 那样使用梯度幅度和方向计算，而是基于高斯滤波器的一组定向导数来计算一组卷积定向图，以创建八个等角度间隔的定向图。

如图 6-24 所示，每个滤镜区域的大小和每个高斯滤镜中的模糊量随着远离中心而增加，通过在视野中心保持锐度和焦距并在远离中心的地方降低焦距和分辨率来模仿人类视觉系统。像 SIFT 一样，Daisy 也使用局部方向的直方图宁滨来形成描述符。

Daisy 的设计考虑到了优化。卷积方向图方法比 SIFT 和 GLOH 的梯度幅度和方向方法消耗更少的计算周期，但是产生相似的结果。Daisy 方法还包括通过使用一组连续的较小核来优化计算较大的高斯核，以及通过递归计算某些卷积核。另一个优化是使用圆形网格模式而不是 SIFT 中使用的矩形网格，这允许 Daisy 通过旋转采样网格而不是重新计算卷积图来改变旋转。

如图 6-24 (右图)所示，Daisy 还使用二元遮挡遮罩来识别描述符模式的部分，以便在特征匹配距离函数中使用或忽略。这是一个新颖的特征，并且提供了对遮挡的不变性。

Daisy 的 FPGA 优化版本称为 O-Daisy [217]，提供增强的旋转不变性。

雏菊汇总分类

光谱:高斯卷积值

特征形状:圆形

特征模式:重叠同心圆

特征密度:每个像素都很密集

搜索方法:密集滑动窗口

距离函数:欧几里得

鲁棒性:3(照明、遮挡、噪声)

卡片

紧凑和实时描述符(CARD)方法 [218]的设计考虑了性能优化，使用基于学习的稀疏散列将描述符转换为支持快速汉明距离匹配的二进制代码。CARD 的一个新概念是从局部像素块中提取方向梯度直方图的查找表描述符，以及将查找表宁滨变换到笛卡尔或对数极坐标箱中。据报道，与 SIFT 和 SURF 相比，CARD 实现了明显更好的旋转和缩放鲁棒性，性能至少比 SIFT 好十倍，比 SURF 略好。

CARD 遵循 RIFF [222][219]的方法进行特征检测，使用位于图像金字塔中八度音程水平之上的快速特征。完整的卡片金字塔包括八度音阶之间的中间等级，以增加分辨率。金字塔等级以外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传的间隔计算，等级 0 为完整图像。使用 Shi-Tomasi [157]优化的 Harris 角点检测器找到关键点。

像 SIFT 一样，CARD 计算每个像素的梯度，可以使用笛卡尔坐标宁滨，也可以像 GLOH 一样使用对数极坐标宁滨；参见图 6-17 。为了避免代价高昂的将梯度信息插值到直方图面元的 biliner 插值，CARD 通过在宁滨之前旋转宁滨模式来优化这一步骤，如图图 6-25 所示。注意，使用查找表进一步优化了宁滨，查找表包含基于面片中梯度的主方向的函数值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-25 。包含 17 个对数极坐标仓的卡片补丁图案，左侧图像旋转以优化宁滨

如图图 6-25 所示，为了加速宁滨，CARD 不是像 SIFT 等方法那样，基于估计的梯度方向旋转面片来提取和绑定旋转不变的描述符，而是基于梯度方向旋转面片上的宁滨图案，然后执行宁滨，这样速度快得多。图 6-25 显示右边未旋转的宁滨图样，左边被外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传旋转。所有入库的值被连接并归一化以形成描述符，在报告的最精确形式中描述符为 128 位长[218]。

卡片汇总分类

光谱:梯度幅度和方向

特征形状:圆形，基于金字塔比例和主方向的可变尺寸

特征模式:密集

特征密度:图像金字塔上快速兴趣点处的稀疏

搜索方法:滑动窗口

距离函数:汉明

鲁棒性:3(光照、缩放、旋转)

鲁棒的快速特征匹配

由 Taylor、Rosten 和 Drummond [220] (RFM2.3)开发的 2.3us 中的健壮特征匹配(此处作者创造了这个缩写)是一种新颖、快速的特征描述和匹配方法，针对计算速度和内存占用进行了优化。就所采用的方法和优化的组合而言，RFM2.3 在这里调查的特征描述符中独树一帜，包括稀疏区域直方图和二进制特征码。RFM2.3 中开发的一个关键思想是通过创建原始特征的一组缩放、旋转和仿射扭曲视图来计算同一面片的多个视图的描述符，这提供了在仿射变换下的不变性，如旋转和缩放以及透视。

除了扭曲之外，一些噪声和模糊被添加到扭曲的面片集合中，以为描述符提供鲁棒性。RFM2.3 是可变形描述符类中为数不多的方法之一[344–346]。尺度空间金字塔中的快速关键点被用于定位候选特征，并且为每个关键点计算扭曲面片集。在计算了扭曲的小块集合之后，在该集合中的每个新的小块上再次生成快速拐角，以确定哪些小块是最明显和可检测的，并且选择最佳的小块并将其量化成二进制特征描述符并保存在模式数据库中。

如图 6-26 所示，RFM2.3 在 16x16 区域内使用稀疏的 8x8 采样模式来捕获补丁。选择 8×8 采样模式中的 13 个像素的稀疏集合来形成稀疏模式的模式数据库中的索引。索引采用 13 位整数形式，如果像素值大于面片平均值，则每一位都将设置为 1，从而将索引限制为 2¹³ 或 8192 个条目，因此数据库中的多个要素可以共享同一个索引。然而，使用汉明距离可以非常快速地计算出特征差异，因此索引主要用作组织相似补丁的数据库关键字。训练阶段确定要包含在特征数据库中的最优索引值集，以及要保存的最优模式，因为一些模式比其他模式更明显。最初，以全分辨率捕获特征，但是如果在全分辨率下发现很少好的特征，则在图像金字塔的下一级提取附加特征。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-26 。RFM2.3(左)描述符稀疏采样模式。(右)使用 13 个样本的稀疏描述符，用于将特征索引构建到数据库中

描述符在训练期间被建模为 64 值的归一化强度分布函数，其大小被减小以在两个过程中计算最终的描述符向量:首先，64 个值被减小到像素强度分布的五格直方图；第二，当训练完成时，如果柱被使用，则每个直方图柱被二进制编码为 1 位，如果柱很少被使用，则为 0 位。所得到的描述符是适合于汉明距离的压缩的二进制编码的位向量。

RFM2.3 摘要分类法

光谱:标准化直方图斑块强度编码成二进制斑块指数代码

特征形状:矩形，多视点

特征图案:15x15 像素块中的稀疏图案

特征密度:快速 9 兴趣点稀疏

搜索方法:在图像金字塔上滑动窗口

距离函数:汉明

鲁棒性:4(光照、比例、旋转、视点)

礁石〔??〕，CHOG

旋转不变快速特征(RIFF)【222】【219】方法受到移动增强现实中的跟踪和映射应用的启发。RIFF 方法的基础包括径向梯度变换(RGT) 的开发，其以计算高效且旋转不变的方式表达梯度方向和幅度。RIFF 的另一个贡献是一种跟踪方法，据报道，它比 KLT 更准确，性能提高了 26 倍。据报道 RIFF 比 SURF 快 15 倍。

RIFF 使用在位于尺度空间中的快速兴趣点处计算的 HOG 描述符，并且通常遵循作者在 CHOG 223 中的先前工作的方法，用于降低维度、低比特率宁滨。在宁滨梯度之前，径向梯度变换(RGT)用于创建旋转不变的梯度格式。如图 6-27 (左图)所示，RGT 使用两个正交的基向量( r，t) 形成围绕面片中心点 c 的径向坐标系，HOG 梯度 g 投影到( r，t) 上表示为旋转不变向量(g^Tr，宁滨建议使用矢量量化器和标量量化器，如图图 6-27 所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-27 。RIFF 描述符背后的概念[222][219]，部分基于 CHOG [223]

如图 6-27 (右图)所示，可以通过在近似径向梯度变换(ARGT)中使用梯度方向近似来优化基向量，使用沿同一梯度线的相邻、标准化像素之间的简单差异和简单的 45 度量化来优化使其易于计算。在图 6-27 (中左图)中也要注意，柱状图是通过在环形区域内每隔一个像素进行采样来优化的，出于实际原因，使用四个环形区域作为区分度和性能之间的折衷。为了满足量化梯度直方图仓的实时系统性能目标，RIFF 使用 5x5 标量量化器，而不是矢量量化器。

在图 6-27 (左图)中， g 在点 c 到径向坐标系( r，t )上的梯度投影用于旋转不变的梯度表达式，描述符面片以 c 为中心。中间左侧的图像(环形)说明了宁滨方法，使用四个环形环，这降低了维数，仅采样灰色像素提供了 2 倍的加速。中间和中间右侧的图像说明了直方图量化的仓中心机制:(1)更灵活的标量量化器 SQ-25 和(2)更快的矢量量化器 VQ-17。右图显示了从中心向外辐射的梯度方向的径向坐标系基向量，显示了计算效率更高的 ARGT 或近似径向梯度变换(RGT)，它不使用浮点数学(RGT 未显示，参见[222])。

RIFF 摘要分类法

光谱:近似径向梯度的局部区域直方图

特征形状:圆形

特征模式:每隔一个像素稀疏

特征密度:图像金字塔上快速兴趣点处的稀疏

搜索方法:滑动窗口

距离函数:对称 KL-散度

鲁棒性:4(光照、比例、旋转、视点)

链码直方图

链码直方图(CCH) [206]描述符通过宁滨连接成分的方向(在这种情况下是连接的周界像素)将周界的形状记录为直方图。当周界被逐个像素遍历时，遍历的方向被记录为一个数字，如图 6-28 中的所示，并记录在直方图特征中。为了匹配 CCH 特征，可以使用 SSD 或 SAD 距离度量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-28 。制作直方图的链码过程。(从左到右)1。连接周长可能改变的 8 个可能方向。2.每个连接的周界方向变化的链码值；确定链码值的方向是从中心像素开始。3.一个带有由黑色像素高亮显示的连接周界的对象。4.从顶部像素开始，沿着连接的周界的对象的链码。5.所有链码值的直方图

美国专利 US4783828 涵盖了链码直方图。CCH 发明于 1961 年[206]，也被称为弗里曼链码。CCH 的一个变体是顶点链码[207]，其允许描述符大小的减少，并且据报道具有更好的准确性。

数字网络

由 Hundelshausen 和 Sukthankar 开发的 D-NETS(Descriptor-NETS)[135]方法放弃了小块或矩形描述符区域，支持一组在端点连接的条带。d-网允许一族由一组端点之间的有向图组成的带状模式；它没有具体限制可以使用的端点或条形图案的类型。D-NETS 论文讨论了三种模式的结果:

**团 D 网:**连接所有兴趣点的完全连接的带状网络。虽然在该方法中使用的兴趣点的类型可能不同，但是最初的工作使用 SIFT 关键点报告结果。
迭代 D-网:使用兴趣点的子集动态创建网络，使用停止标准增加连接性，以优化连接密度，从而获得所需的匹配性能和准确性。
**密集采样的 D 网:**该变体不使用兴趣点，而是在规则间隔的网格上对网进行密集采样，10 像素网格是凭经验选择和优选的，在网格位置添加一些滞后或噪声以减少病理采样伪影。密集方法适用于高度并行的实现，以提高性能。

关于三种 D 网模式的图示和一些讨论，见图 4-9 。

每个条带是在两点之间采样的原始像素值的数组。描述符本身被称为 d-token ，并且提出了用于计算 d-token 的各种方法，例如类似于 FERNS 或 ORB 的条带中像素值之间的二进制比较，以及比较条带阵列的 1D 傅立叶变换，或者使用小波。报告的最佳结果是一种经验设计的 d-token，创建如下:

条带向量采样，其中每个像素条带向量在像素条带向量长度的 10%和 80%之间的等间距位置被采样；这种采样安排是根据经验确定的，以忽略端点附近的像素。
量化像素条带矢量通过将数值整合成一组均匀的组块， s **，**降低噪声。
标准化用于缩放和平移的条带矢量。
将向量值离散化到有限的位范围内， b 。
将所有统一的组块串接成 d-token，d-token 是一个长度为 sb* 的位串。

描述符匹配利用了一种高效新颖的哈希和假设对应投票方法。据报道，D-NETS 结果比 ORB 或 SIFT 具有更高的精确度和召回率。

D-NETS 摘要分类法

光谱:标准化的平均线性像素强度块

要素形状:线段连接的网络

特征模式:所选点之间的稀疏线段

要素密度:沿线稀疏

搜索方法:滑动窗口

距离函数:散列和投票

鲁棒性:5(照明、缩放、旋转、视点、遮挡)

局部渐变图案

LBP 方法的变体，局部梯度模式(LGP) [204]使用局部区域梯度而不是局部图像强度对比较来形成二进制描述符。计算局部区域中每个像素的 3×3 梯度，然后将每个梯度幅度与所有局部区域梯度的平均值进行比较，如果该值较大，则分配二进制比特值 1，否则分配 0。作者声称，在人脸识别算法中，准确率和区分度都比基本的 LBP 有所提高，包括假阳性的减少。然而，由于局部区域梯度计算，计算要求大大增加。

LGP 汇总分类

光谱:中心像素和局部区域梯度之间的局部区域梯度比较

特征形状:方形

特征模式:每个像素 3×3 内核区域

特征密度:在 3x3 区域密集

搜索方法:滑动窗口

距离函数:汉明

鲁棒性:3(光照、缩放、旋转)

局部相位量化

局部相位量化(LPQ) 描述符[166–168]旨在对图像模糊具有鲁棒性，并利用傅立叶相位信息的模糊不敏感特性。由于需要傅里叶变换来计算相位，因此存在一些计算开销；然而，整数 DFT 方法可以用于加速。据报道，LPQ 为均匀模糊以及均匀照明变化提供了鲁棒性。据报道，LPQ 在非模糊图像上提供了与 LBP 和 Gabor 滤波器组方法相等或稍好的精度。虽然主要用于纹理描述，但 LPQ 也可以用于局部特征描述，以通过将 LPQ 与另一种描述符方法(如 SIFT)相结合来增加模糊不变性。

为了计算，首先在图像的小区域(例如 8×8 块)上的每个像素处计算 DFT。在描述符中使用了来自相位谱的低四个频率分量。作者注意到内核大小影响模糊不变性，因此更大的内核块可以以增加计算开销为代价提供更多的不变性。

在量化之前，使用白化变换对系数进行去相关，从而产生均匀的相移和 8 度旋转，这保持了模糊不变性。对系数去相关有助于创建统计上独立的样本，以便更好地量化。

对于每个像素，使用类似 LBP 的 8 位二进制编码位向量和简单的标量量化器，将得到的向量量化到 8 维空间中，以产生 1 和 0 值。使用从 8 维空间导出的 256 个超立方体来执行特征向量的宁滨。得到的特征向量是 256 维的 8 位代码。

LPQ 摘要分类法

光谱:使用 DFT-> 8 位二进制代码的局部区域白化相位

特征形状:方形

特征模式:8×8 内核区域

特征密度:每个像素都很密集

搜索方法:滑动窗口

距离函数:汉明

鲁棒性:3(对比度、亮度、模糊度)

基础空间描述符

本节将介绍如何使用基空间来描述计算机视觉应用中的图像特征。一个基空间由一组函数组成，即基函数，它们作为一个集合组合在一起，比如像傅立叶级数这样的级数(在第三章中讨论)。一个复信号可以分解到一个选定的基空间作为描述符。

基函数可以用来描述、重构或合成信号。它们需要一个正向转换来将值投影到基集中，并需要一个反向转换来将数据移回原始值。一个简单的例子是在以 2 为基数的数字系统和以 10 为基数的数字系统之间转换数字；每种基础都有优点。

有时，将数据集从一个基础空间转换到另一个基础空间对于深入了解数据或者处理和过滤数据非常有用。例如，作为笛卡尔坐标系中的像素组在时域中捕获的图像可以被变换到其他基空间，例如频域中的傅立叶基空间，用于处理和统计分析。计算机视觉应用的良好基础空间将提供正向和反向变换。同样，傅里叶变换满足这些标准，以及其他几个基本空间。

基空间类似于坐标系，因为两者都有到相关空间的可逆变换。在某些情况下，简单地将特征光谱转换到另一个坐标系中使得分析和表示更简单和更有效。(第四章讨论用于特征表示的坐标系。)本章中调查的几个描述符使用非笛卡尔坐标系，包括使用极坐标宁滨的 GLOH 和使用径向坐标描述符的 RIFF。

傅立叶描述符

傅立叶描述符[227]将特征数据表示为正弦和余弦项，这可以在傅立叶功率谱中观察到。傅立叶级数、傅立叶变换和快速傅立叶变换用于广泛的信号分析，包括 1D、2D 和 3D 问题。没有傅立叶方法的图像处理或计算机视觉的讨论是不完整的，所以我们将在这里探索傅立叶方法及其在特征描述中的应用。

布拉采维尔[227]在标准文本中已经很好地发展了傅立叶级数和傅立叶变换背后的数学和理论，我们讨论了傅立叶功率谱在特征描述中的应用，并在此提供了基本原理的最少处理以构建讨论；参见第三章。傅立叶级数背后的基本思想是根据幅度和相位定义一系列正弦和余弦基函数，这些函数可以求和来近似任何复杂的周期信号。相反，傅立叶变换用于将复杂的周期信号分解成正弦和余弦基项的傅立叶级数组。诸如线或 2D 图像区域的信号的傅立叶级数分量被用作该区域的傅立叶描述符。

对于本讨论，傅立叶描述符是从傅立叶功率谱中选择的成分，通常我们选择低频成分，它们承载大部分功率。这里有几个使用傅立叶描述子的例子；注意，可以使用傅立叶幅度和相位中的一个或两个。

**LBP 直方图的傅里叶谱。**如图图 3-10 所示，一个 LBP 直方图集合可以表示为一个傅立叶谱幅值，这使得直方图描述子具有旋转不变性。
**形状周长的傅立叶描述子。**如图图 6-29 所示，多边形物体的形状可以用傅立叶方法描述，使用一系列以一定间隔(如 10 度)从周长到质心的线段。该阵列被馈送到 FFT 以产生形状描述符，该形状描述符是比例和旋转不变的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-29 。(左)多边形形状长轴、短轴和边界框。(中心)具有从质心到周长的径向样本长度的对象，每个样本长度都保存在一个数组中，经过标准化。(右)图像输入傅里叶频谱，产生傅里叶描述符

**梯度直方图的傅立叶描述子。**很多描述子用梯度来表示特征，用梯度幅度或方向直方图来对结果进行 bin。傅立叶频谱幅度可以用于从梯度信息创建描述符，以增加不变性。
**径向线样本的傅里叶谱。**如在 RFAN 描述符[136]中使用的，来自局部区域的像素值的径向线样本可以被表示为傅立叶幅度的傅立叶描述符。
**傅里叶频谱相位。**本章描述的 LPQ 描述符利用了描述符中的傅里叶频谱相位信息，据报道，由于相位信息，LPQ 对模糊不敏感。

描述符构建的其他基本函数

除了傅立叶基系列，其他函数系列和基集用于描述符构建、模式识别、和图像编码。然而，这种方法通常应用于全局或区域范围。参见第三章了解其他几种方法的详细信息。

稀疏编码方法

在关于基空间描述符的讨论中，我们简要讨论稀疏编码方法，因为它们类似于基空间。采用许多方法来进行稀疏编码[530–533]，使用术语上的细微差异，包括视觉词汇 和词汇袋方法【537】。然而，稀疏编码方法使用一组减少的学习特征描述符或代码，而不是基函数。主要思想是从训练图像中建立基本特征的稀疏码书，并与稀疏码书进行匹配。稀疏码可以是简单的图像补片或其他描述符。

一系列机器学习方法(在本书的范围之外，参见 Prince 的[546]以获得关于机器学习的更多信息)被用于寻找最佳稀疏特征集。此外，每种稀疏编码方法可能更喜欢特定类型的分类和匹配。稀疏码被关联为子集或签名以识别对象。本章中讨论的任何局部特征描述符方法都可以用作稀疏码本的基础。稀疏编码和相关方法将在第四章中详细讨论。有关稀疏编码的更多详细信息，请参见 Aharon、Alad 和 Bruckstein [536]的工作，以及飞飞、Fergus 和 Torralba [537]。

稀疏编码方法的例子

作为使用稀疏码进行对象识别的一个例子，Ren 和 Ramaan [125]改进了 HOG 方法，用称为稀疏码直方图(HSC )的新特征描述符代替 HOG 梯度直方图特征；参见图 6-30 。使用稀疏码书的相关工作包括分层匹配追踪方法(HMP)【140】，该方法构建了从图像补丁导出的补丁级稀疏码的分层特征分层结构，以产生局部特征。来自整个图像的块级稀疏码被组合以产生图像级特征。HMP 的一个近似变体是多路径稀疏编码方法[124]，它有效地将多种尺寸的较小和中等尺寸的补丁以及多层稀疏编码结合到单个系统中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-30 。一种使用稀疏编码的特征学习方法，展示了如何从一组学习到的稀疏码构建稀疏码直方图(HSC)。据报道，HSC 方法[125]在许多情况下都优于 HOG

多边形形状描述符

多边形形状描述符为任意多边形或斑点计算一组形状特征，并且使用统计矩或图像矩来描述形状(如第三章中所讨论的)。这些形状特征基于面形状的周长。在测量和描述之前，用于描绘图像周界以突出形状的方法通常是复杂的、凭经验调整的图像预处理操作流水线，如阈值处理、分割和形态学(如在第二章中所讨论的)。一旦多边形形状被描绘，形状描述符被计算；参见图 6-31 。通常，多边形形状方法适用于较大区域尺寸的特征。在文献中，这个话题也可能被讨论为图像矩。要深入了解图像时刻的主题，请参阅 Flusser 等人的文章。艾尔。[518].

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-31 。多边形形状描述符。(左)孔雀石碎片。(右)在二值化阈值、周长追踪和特征标注后定义和标注的多边形形状。(使用 ImageJ Fiji 进行图像处理和颗粒分析)

多边形形状方法通常用于医学和工业应用中，例如用于细胞生物学的自动显微镜，以及用于工业检查；参见图 6-31 。商业软件库可用于多边形形状描述，通常称为粒子分析或斑点分析。参见附录 C 。

MSER 方法

最大稳定极值区域(MSER)方法[194]通常在文献中作为感兴趣区域检测器讨论，事实上也确实如此。然而，我们在形状描述符部分包括 MSER，因为 MSER 区域可能比其他兴趣点方法大得多，例如 HARRIS 或 FAST。

开发 MSER 检测器是为了解决宽基线立体声系统中的视差对应。立体系统产生扭曲和复杂的几何深度场，并且根据相机之间的基线和对象到相机的距离，必须补偿各种几何效果。在宽基线立体系统中，更靠近相机的特征在仿射变换下更加失真，使得更难找到左/右图像对之间的精确匹配。MSER 方法试图通过匹配斑点状特征来克服这个问题。MSER 区域类似于形态学斑点，对倾斜和光照相当鲁棒。MSER 本质上是分水岭算法的一个有效变体，除了 MSER 的目标是找到一个阈值范围，使分水岭盆地的大小保持不变。

MSER 方法包括基于二进制强度阈值将像素分类成一组区域；连通分量图案中在阈值范围内具有相似像素值的区域被认为是最大稳定的。为了计算 MSER，在二进制强度阈值循环中对像素进行分类，该循环从最小到最大扫描强度值。首先，在单个图像通道(例如亮度通道)上将二进制阈值设置为低值，例如零。像素< the threshold value are black, pixels >=白色。在每个阈值级别，保存一个连通分量或像素的列表。强度阈值从 0 增加到最大像素值。不随着强度变化而增长或收缩或改变的区域被认为是最大稳定的，并且 MSER 描述符记录最大区域的位置和相应的阈值。

在立体应用中，较小的 MSER 区域是优选的，并且相关性被用于最终对应，并且相似性在一组圆形 MSER 区域内以选择的旋转间隔被测量。MSER 的一些有趣优势包括:

多尺度特征和多尺度检测。因为 MSER 特征不需要任何图像平滑或尺度空间，所以粗糙特征和精细边缘特征都可以被检测到。
跨整个区域全局计算的可变大小特征，不限于面片大小或搜索窗口大小。
仿射变换不变性，这是一个特定的目标。
对形状变化的一般不变性和检测的稳定性，因为极值区域往往在宽范围的图像变换中被检测到。

MSER 也可以被认为是形状描述符的基础，并作为形态学分割方法的替代方法。每个 MSER 区域都可以用形状度量来分析和描述，这将在本章后面讨论。

斑点和多边形的对象形状度量

对象形状度量是强大的，并且在不变性和鲁棒性方面产生许多自由度。对象形状度量不同于局部特征度量，因为对象形状度量可以描述更大的特征。这对于逐帧跟踪是有利的。例如，可以在各种条件和不变性下逐帧跟踪仅由几个简单的对象形状度量(如面积、周长和质心)描述的大对象。欲了解更多信息，请参阅参考文献[128，129]中关于 2D 形状描述方法的综述。

形状可以用几种方法来描述，包括:

**物体形状矩和度量:**本节的重点。
**影像时刻:**参见第三章中的“影像时刻”
傅立叶描述符:本章讨论的和第三章。
**形状上下文特征描述符:**本节讨论。
**周界描述的链码描述符:**本节讨论。

物体形状与形态学领域密切相关，形态学处理的计算机方法在第二章中详细讨论。也参见本章前面关于形态学兴趣点的讨论。

在计算机视觉研究的许多领域，局部特征似乎比基于物体形状的特征更受青睐。形状分析方法缺乏普及可能是对创建过滤、形态学和分割的预处理流水线以准备用于形状分析的图像的努力的反应。如果图像没有被正确地预处理和准备，形状分析是不可能的。(见第八章对假想形状分析预处理流水线的讨论。)

多边形形状度量可以用于几乎任何场景分析应用，以找到常见的对象，并对它们的大小和形状进行精确测量；典型的应用包括生物学和制造业。通常，大多数多边形形状度量是旋转和比例不变的。表 6-7 提供了可从区域形状(二元形状和灰度形状)得出的一些常用度量的样本。

表 6-7 。各种常见的对象形状和斑点对象度量

对象二进制形状度量

描述

^*******注意:一些二进制对象度量也适用于灰度对象。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-32 。用于对象周长的形状矩阵描述符[335]。(左二图)笛卡尔坐标形状矩阵。(右图)极坐标形状矩阵使用三行八个编号的面元区域，灰色框表示要面元的像素。注意，可以一起使用多个形状矩阵。如果像素填充至少一半的二进制区域，则设置矩阵中的值，不使用插值

形状被认为是二进制的；然而，也可以使用灰度形态学在强度通道对象周围计算形状。周界被认为是一组相连的部分。该形状由二进制阈值或强度带内的单个像素宽的周界来定义，并且像素在周界上、周界内或周界外。可以通过逐个像素地扫描图像并检查相邻的接触像素邻居的连通性来计算周界边缘。或者，周长可以根据本章前面讨论的形状矩阵[335]或链码来计算。计算每个线段(像素)的周长，其中线段长度= 1 表示水平和垂直邻居，而外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传表示对角邻居。

周界可以用作掩模，并且可以在该区域内计算灰度或颜色通道统计度量。对象区域是周界内所有像素的计数。质心可以从包含在周界区域内的所有点的所有 (x，y) 坐标的平均值计算，或者从所有周界 (x，y) 坐标的平均值计算。

形状度量是强大的。例如，形状度量可以用于在测量之前从场景中移除或排除对象。例如，当区域小于给定的大小时，或者如果质心坐标在给定的范围之外，可以从场景中移除对象。

如图图 6-29 和图 2-18 所示，傅立叶描述子提供了一个旋转和比例不变的形状度量，也具有一些遮挡不变性。确定傅立叶描述符的方法是从质心到圆周上的点进行一组等角度间隔的半径测量，例如每 10 度，然后将半径测量组合成 1D 阵列，该阵列通过 1D FFT 运算以产生物体的傅立叶矩。或者径向像素轮辐可以用作描述符。

图 6-29 所示的其他有用的形状度量的例子包括具有长轴和短轴的边界框，其具有通过质心到周长的最长和最短直径段；这可以用来确定物体的旋转方向。

SNAKES 方法 [540]使用样条模型将兴趣点的集合(如选定的周界点)拟合到区域轮廓中。兴趣点是样条点。SNAKE 可用于逐帧跟踪轮廓特征，在兴趣点位置周围变形。

通常，2D 物体形状方法可以扩展到 3D 数据；然而，我们在这里不探索 3D 对象形状度量，参见参考文献[200，201]的 3D 形状描述符的调查。

形状上下文

由 Belongie、Malik 和 puzi cha[239–241]开发的形状上下文方法描述了使用周界上的参考点作为笛卡尔轴原点的局部特征形状，以及相对于参考点原点的宁滨选定周界点坐标。每个点的相对坐标被收集到对数极坐标直方图中。形状上下文与 1985 年开发的早期形状矩阵描述符[335]相关，如图 6-32 所示，该描述符也使用对数极坐标描述物体的周长。形状上下文方法提供了变化，在作者的几篇论文中有描述[239–241]。这里，我们来看几个关键概念。

首先，以均匀的间隔稀疏地采样对象的周界边缘，通常为粗略宁滨保留大约 100 个边缘采样点。稀疏周界边缘点通常不同于兴趣点，并且使用周界追踪来发现。接下来，在对象的周界上选择参考点作为笛卡尔空间的原点，并且计算从原点到每个其他周界点的矢量角度和幅度外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传。幅度或距离被归一化以拟合直方图。每个稀疏周界边缘点用于计算与原点的切线。最后，使用将每个归一化向量装入对数极坐标直方图，这被称为形状上下文。

在匹配期间，在描述符对之间产生对准变换，这产生目标和选择的模式之间的差异，并且可以用于重建。对准变换可以根据需要从仿射、欧几里德、基于样条的和其他方法中选择。对应使用匈牙利方法，该方法包括直方图相似性，并且通过使用正切角相异度的对准变换强度来加权。匹配还可以采用局部外观相似性度量，例如斑块或颜色直方图之间的归一化相关性。

形状上下文方法提供了对缩放、平移、旋转、遮挡和噪声的不变性的测量。参见图 6-33 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-33 。形状上下文方法。(左)周界点被测量为形状向量，包括角度和距离，相对于作为参考笛卡尔原点的所选周界点。(右)形状向量被装入对数极坐标直方图特征描述符中

3D、4D、体积和多模态描述符

随着越来越多的 3D 传感器的出现，例如立体相机和其他深度感测方法，以及无处不在的加速度计和内置于廉价移动设备中的其他传感器，3D 特征描述和多模态特征描述的领域开始蓬勃发展。

许多 3D 描述符与机器人研究和 3D 定位相关联。由于 3D 特征描述领域处于开发周期的早期，尚不清楚哪些方法将被广泛采用，因此我们在此仅介绍 3D 描述符方法的一小部分示例。其中包括 3D HOG [196]，3D SIFT [195]和 HON 4D [198]，这些都是基于熟悉的 2D 方法。我们建议感兴趣的读者参考参考文献[200，201，216]中的 3D 形状描述符。几个有趣的 3D 描述符度量在点云库中作为开源可用，^【2】，包括基于半径的表面描述符(RSD)【539】、主曲率描述符(PCD)、直方图方向签名(SHOT)【541】、视点特征直方图(VFH)【398】和旋转图像【538】。

推动 3D 描述符研究的关键应用包括机器人和活动识别，在这些应用中，随着特征的变形和变形，会对其进行逐帧跟踪。目标是定位位置和识别人类动作，如行走、挥手、转身或跳跃。另请参见 3D 的 LBP 变体:V-LBP 和 LBP-TOP，本章前面已经介绍过，如图 6-12 所示，也用于活动识别。因为 2D 特征在活动识别期间是移动的，所以时间是结合到描述符中的第三维。我们在这里调查一些著名的 3D 活动识别研究。

动作识别工作中的一个关键概念是将熟悉的 2D 特征扩展到时空的 3D 空间中，其中 3D 空间由随时间推移的 2D x，y 视频图像序列 t 组成具有形式 *v(x，y，t)的体积表示。*此外，在许多动作识别描述符方法中使用 3D 表面法线、3D 梯度幅度和 3D 梯度方向。

3D 猪

3D HOG [196]部分基于体积特征[199]中的一些早期工作。总的想法是在 3D HOG 描述符公式中使用熟悉的 HOG 描述符[106],使用一堆连续的 2D 视频帧或切片作为 3D 体积，并计算体积内相邻帧的时空梯度方向。为了提高效率，基于与 Viola Jones 方法中使用的积分图像方法相同的思路，开发了一种新颖的积分视频方法作为图像金字塔的替代方法。

[199]中还开发了一种使用积分视频概念的类似方法，在体积中的 4 到 40 个视频帧上使用 64x64 的子采样空间，使用像素强度而不是梯度方向。积分视频方法，也可以被认为是积分体积方法，允许将来自堆叠的连续视频帧的任意立方体区域整合在一起，以计算任意尺度上的局部梯度方向。与使用预先计算的图像金字塔相比，这是空间高效和时间高效的。事实上，这种完整的视频集成方法是这项工作的一个新贡献，可以应用于 2D 或 3D 中的强度、颜色和梯度幅度等其他光谱，以消除对图像金字塔的需要，从而在图像比例方面提供更多选择，而不仅仅是八度音阶。

在图 6-34 中说明了 3D HOG 描述符的计算。为了找到特征关键点来锚定描述符，使用 Harris 算子的时空扩展[197]，然后从关键点处的立方区域中的定向梯度的平均值计算直方图描述符。由于梯度幅度对照明变化敏感，因此使用梯度方向来提供照明不变性，并且使用简单的 x、y、z 导数在 3D 立方体区域上计算梯度方向。使用积分视频方法可以快速计算任意三维长方体的平均梯度方向。通过将每个矢量投影到一个正二十面体的 20 面形的面上来合并所有矢量，梯度方向被量化为直方图面元，如图图 6-34 所示。20 个二十面体面充当直方图仓。时空特征的稀疏集合被组合成视觉词汇表中的特征包或单词包。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-34 。HOG 3D 描述符计算。(左)2x2x2 描述符单元块。(左中)在 2x2x2 单元子块上计算的梯度方向直方图。(右中)通过将向量交集投影到 20 面二十面体的面来量化的渐变方向。(右)在积分视频块上计算的平均梯度方向(体积矢量积分)

她是 4dt1

与 3D HOG 类似的方法称为 HON 4D [198]，它将描述符计算为定向 4D 法线的直方图，其中 3D 表面法线+时间总计为四维(4D)。HON 4D 使用深度图像序列或 3D 深度图作为计算描述符的基础，而不是像 3D HOG 方法中那样使用 2D 图像帧。所以需要深度相机。在这方面，HON 4D 类似于计算 3D 表面法线的一些体绘制方法，并且可以使用类似的方法加速[452，453，454]。

在 HON 4D 方法中，表面法线捕捉每个物体的表面形状线索，法线方向随时间的变化可用于确定运动和姿态。在这种方法中，只有曲面法线的方向是重要的，因此法线长度都被归一化为单位长度。结果，宁滨到直方图的作用不同于 HOG 风格的宁滨，因此时间的第四维对帧与帧之间的梯度差异进行编码。使用 4D 投影函数对 HON 4D 描述符进行分箱和量化，该投影函数将局部表面法线方向量化到 600 单元的多边形中，该多边形是 2D 多边形到 4 空间的几何扩展。

考虑使用梯度方向的洪 4D 方法与使用梯度幅度的霍格方法的区别。如果两个表面在梯度幅度方面相同或相似，则 HOG 样式描述符不能区分；然而，由于描述符中使用的曲面法线的方向，HON 4D 风格描述符可以区分。当然，计算 3D 法线是计算密集型的，没有考虑访问体积的每个组件所需的非连续内存访问模式的特殊优化。

3D SIFT

3D SIFT 方法[195]从 2D SIFT 特征方法开始，并将特征宁滨重构为使用体积时空区域v(x，y，t)，，如图 6-35 中的所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-35 。将 3D SIFT [195]矢量直方图仓计算为三个连续 2D 图像帧的体积空间或 3D 时空区域中子体积的组合梯度方向的组合

梯度对方向的 3D 方向计算如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

该方法为每个关键点处的三维空间中的梯度方向的每个角度提供了唯一的二值( φ，θ )表示。宁滨阶段的处理方式不同于 SIFT，而是使用由球面坐标空间中的经线和纬线定义的正交面元。计算起来更简单，但需要对每个值进行归一化，以考虑从两极到赤道的表观尺寸的球面差异。

为了计算 SIFT 描述符，每个子直方图的 3D 梯度方向用于引导描述符关键点处的 3D 区域的旋转指向 0，这提供了对描述符的旋转不变性的测量。每个点将被表示为一个单一的梯度幅度和两个方向向量( φ，θ )，而不是一个，如 2D SIFT *。*描述符宁滨是在相邻立方体的三维上计算的，而不是在 2D SIFT 描述符的二维上。

一旦特征向量被分箱，使用分层 K-means 聚类将特征向量集聚类成相似特征的组，或者聚类成时空单词词汇表中的单词*、*。聚类之外的另一个步骤可以是使用稀疏编码方法[115–117]减少特征集，但是没有尝试稀疏编码步骤。

据报道，使用 3D SIFT 进行动作识别的结果与其他类似方法相比相当好；参见参考文献[195]。

摘要

在这一章中，我们调查了各种各样的局部兴趣点检测器和特征描述符方法，以了解从业者在做什么，包括 2D 和 3D 方法。第五章中的视觉分类法用于根据描述符族划分特征描述符调查，如局部二进制方法、光谱方法和多边形形状方法。局部描述符和区域描述符之间有一些重叠，然而这一章试图把重点放在局部描述符方法上，把区域方法留给第三章。局部兴趣点检测器在简单的分类法中讨论，包括基于强度的区域方法、基于边缘的区域方法和基于形状的区域方法，包括许多兴趣点检测器方法使用的关键概念和数学的背景。讨论了选择合适的兴趣点检测器的一些困难，并对几种检测器方法进行了综述。

本章还强调了对通用描述符方法的改进。例如，通过改变所使用的描述符光谱，例如 LBP 与梯度方法，或者通过用不同的方法替换兴趣点检测器，来改进许多描述符。根据在第五章中开发的分类属性，为特征描述符提供了摘要信息，以便能够进行有限的比较，使用的概念来自对第四章中提出的局部特征描述设计概念的分析。

²*

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git