深度学习笔记(十):深度学习评估指标

文章目录专业名词解释一级指标二级指标深度学习评估指标专业名词解释HTC (Hybrid Task Cascade)-混合任务级联bounding box-边界矩形框RoI(Region of Interest)-感兴趣区域Rol Pooling-Rol 池化(RoI Pooling = crop feature + resize feature)Rol Align-解决了ROI Pooling操作

ZZY_dl

1954人浏览 · 2021-03-08 16:19:03

ZZY_dl · 2021-03-08 16:19:03 发布

文章目录

深度学习专业术语与评估指标全解析

深度学习专业术语与评估指标全解析

一、专业名词解释

目标检测基础概念

HTC (Hybrid Task Cascade)：混合任务级联，是一种在目标检测中用于优化任务流程，提升检测性能的技术架构。
bounding box：边界矩形框，用于在图像中标记目标物体位置的矩形框，是目标检测中最基本的位置表示方式。
RoI (Region of Interest)：感兴趣区域，在图像中被指定的特定区域，通常是与目标物体相关的部分，后续的处理会聚焦于此区域。

特征处理相关

RoI Pooling：RoI 池化（RoI Pooling = crop feature + resize feature），其作用是根据预选框的位置坐标在特征图中将相应区域池化为固定尺寸的特征图，为后续的分类和包围框回归操作提供统一尺寸的特征输入。
RoI Align：解决了 ROI Pooling 操作中两次量化造成的区域不匹配（mis - alignment）问题，通过将最近邻插值转换为双线性插值以及 size 归一化等操作，显著提升检测模型的准确性，是一种更先进的区域特征聚集方式。
FCN（Fully Convolutional Network）：全卷积网络，将传统卷积神经网络中的全连接层替换为卷积层，使得网络可以接受任意尺寸的输入，并输出相应尺寸的预测结果，广泛应用于语义分割等任务。
dense local regression：稠密局部回归，用于对目标的局部信息进行回归预测，在精细定位和特征描述等方面发挥重要作用。
binary overlap prediction：二值交叠预测，通过预测两个区域的交叠情况（通常以二值形式表示），辅助目标检测和定位任务。
discriminative RoI pooling：判别性 RoI 池化，旨在通过对 RoI 区域进行池化操作时，增强特征的判别性，提高模型对不同目标的区分能力。
local box offsets：多个局部框偏移量，用于描述局部框相对于某个基准位置的偏移信息，有助于更精确地定位目标物体。

网络架构相关

backbone：骨干网，是深度学习模型的基础架构部分，主要负责从输入数据中提取基础特征，为后续的任务特定处理提供特征支持，如 ResNet、VGG 等经典网络常被用作骨干网。
region proposal network：区域生成网络，用于在图像中生成可能包含目标物体的候选区域，是许多目标检测算法中的关键组件，能够有效减少后续处理的搜索空间。
anchor：候选窗口，在区域生成网络中预先定义的一系列不同大小和比例的窗口，用于匹配图像中的目标物体，是生成候选区域的基础单元。

操作与算法

NMS（Non - Maximum Suppression）：非极大值抑制，一种在目标检测中用于去除重叠冗余检测框的算法，通过比较检测框的得分，保留得分最高的检测框，并抑制与之重叠度较高的其他检测框。
conv（Convolution）：
- 相当于一个强大的特征提取器，能够从输入数据中提取有价值的特征信息，为后续的分类、定位等任务提供基础。
- 在卷积过程中，卷积核的位置信息可以帮助模型学习到数据的空间结构，从而提供位置相关的信息。
- 通过共享卷积核的参数，卷积操作能够有效地减少模型的参数个数，降低模型的复杂度。
pooling：
- 具有提取特征的功能，通过对局部区域的特征进行汇总，能够突出主要特征，减少噪声干扰。
- 同时，pooling 操作可以降低数据的维度，从而减少模型的参数数量，提高计算效率，降低过拟合风险。
average pooling：对邻域内特征点只求平均，这种操作更多地保留了图像的背景信息，使得特征图在保留整体结构的同时，对细节信息进行了一定程度的平滑处理。
max pooling：对邻域内特征点取最大，该操作更倾向于保留图像的纹理信息，突出图像中的显著特征，有助于模型学习到目标物体的关键特征。

其他常用概念

fc（Fully Connected Layer）：
- 起到分类器的作用，对前层的特征进行加权和运算，将提取到的特征映射到不同的类别空间，实现分类任务。
- 1×1 卷积在功能上等价于 fc 层，在目标检测中，可用于包围框的修正等操作。
- 通过调整权重和神经元数量，fc 层可以减少模型的参数，有助于防止过拟合现象的发生。
- fc 层利用上一层的所有输入来计算输出，与卷积层不同，它抛弃了卷积层不同位置的权值共享特性。特征层提取物体的各个部分和不同特征后，fc 层将这些特征整合到一起，形成一个完整的特征表示。
Recall：召回率，用于衡量模型在所有实际正例中能够正确识别出的正例比例，反映了模型的查全能力。
Precision：精确率，指模型在所有被识别为正例的样本中，实际为正例的比例，体现了模型的查准能力。
Average_precision(AP)：平均正确率，是对不同召回率下精确率的加权平均，用于综合评估模型在不同召回水平下的性能表现。
Intersection - over - Union（IoU）：交并比，即“预测的边框”和“真实的边框”的交集与并集的比值，是衡量目标检测中预测框与真实框匹配程度的重要指标。
State - of - the - art：最先进的方法，代表在某个特定领域或任务中当前性能最优、技术最前沿的解决方案。
mask：掩膜，通过在两幅图像之间进行各种位运算操作（如 1 & 1 = 1，1 & 0 = 0），可以实现提取 RoI 区域、结构特征提取以及特殊形状图像的制作等功能，在图像分割、目标检测等任务中广泛应用。
SVM（Support Vector Machine）：支持向量机，是一种常用的目标分类识别算法，通过寻找最优的分类超平面，将不同类别的数据进行有效区分。
拟合（Fitting）：指模型的曲线能够较好地描述某些样本数据，并且具有良好的泛化能力，即能够对新的、未见过的数据进行准确的预测。
过拟合（Overfitting）：模型过度学习了训练数据的特征，在训练集上表现极为出色，能够近乎完美地预测或区分所有数据，但在新的测试集上却表现不佳，缺乏泛化能力，无法准确判断新样本。可以通过增大数据量、采用正则化方法、使用 Dropout（随机丢弃一些神经元）等方式来缓解过拟合问题。
欠拟合（UnderFitting）：模型未能充分学习到测试样本的特性，或者模型过于简单，无法有效地拟合或区分样本。通常可以通过优化模型结构、增加模型复杂度等方法来解决欠拟合问题。

二、评估指标基础概念

一级指标

在目标检测和分类任务中，我们经常使用以下四个一级指标来描述模型的预测结果：

TP (True Positive)：真实值为 positive，且模型也认为是 positive 的样本数量。这表示模型正确地识别出了正例。
FN (False Negative)：真实值为 positive，但模型却认为是 negative 的样本数量。意味着模型遗漏了一些实际的正例。
FP (False Positive)：真实值为 negative，然而模型却认为是 positive 的样本数量。说明模型将一些负例错误地识别为正例。
TN (True Negative)：真实值为 negative，模型也正确地认为是 negative 的样本数量。即模型正确地识别出了负例。

二级指标

通过上述四个一级指标，我们可以构建混淆矩阵，并将矩阵中的数量结果转化为 0 - 1 之间的比率，以便进行标准化的衡量。这些比率指标能够更直观地评估模型的性能。

三、深度学习评估指标

IoU 相关指标

C75：在 IOU = 0.75 条件下，recall - AP 曲线下的面积。该指标反映了在较高 IoU 阈值下，模型的综合性能，对目标检测的定位精度要求较高。
C50：在 IOU = 0.5 条件下，recall - AP 曲线下的面积。这是一个较为常用的指标，在一定程度上兼顾了模型的召回率和精确率，对定位精度的要求相对适中。
Loc：在 IoU = 0.1 条件下，recall - AP 曲线下的面积。由于此时 IoU 的阈值很小，可以认为在一定程度上忽略了定位误差，但能保证不会重复检测（localization errors ignored, but not duplicate detections），主要用于评估模型对目标的初步检测能力。

综合评估指标

Sim：去除相似类别的混淆后的 recall - AP 曲线下的面积。该指标专注于评估模型在区分相似类别时的性能，减少类别混淆对评估结果的影响。
Oth：不同类别之间的混淆后的 recall - AP 曲线下的面积，用于衡量模型在处理不同类别之间相互混淆情况时的表现。
BG：去除背景上的假正例后的 recall - AP 曲线下的面积，有助于评估模型在抑制背景干扰、减少误检方面的能力。
FN：所有错误都去掉后的 recall - AP 曲线下的面积，提供了一个理想化的模型性能上限参考。

Precision - Recall 相关指标

Precision - Recall Curve：Precision - Recall 的曲线，以召回率为横轴，精确率为纵轴绘制而成。该曲线直观地展示了模型在不同阈值下精确率和召回率的变化关系，帮助我们全面了解模型的性能特点。
mAP@0.5：0.5 是指 iou 的重合度阈值情况下的 map 的均值。该指标计算在 IoU 阈值为 0.5 时，所有类别平均精度（AP）的平均值，是衡量目标检测模型性能的常用指标之一。
map@.5:.95：计算 iou 阈值从 0.5 - 0.95（步长为 0.05）的不同情况下的 map 的均值。这种多阈值的平均精度计算方法能够更全面地评估模型在不同定位精度要求下的性能表现。

目标尺寸相关指标

APsmall：对于小目标（面积 < 32²）的 AP 值，专门用于评估模型对小尺寸目标的检测能力。小目标检测往往具有一定的挑战性，该指标能够反映模型在这方面的性能。
APmedium：对于中目标（面积在 32² - 96² 之间）的 AP 值，用于衡量模型对中等尺寸目标的检测性能。
APlarge：对于大目标（面积 > 96²）的 AP 值，体现了模型对大尺寸目标的检测效果。

召回率相关指标

ARmax = 1：对每幅图像进行一次检测后的平均召回率，反映了模型在单次检测时的召回能力。
ARmax = 10：对每幅图像进行十次检测后的平均召回率，展示了模型在多次检测情况下的召回表现，一定程度上可以反映模型对复杂场景的适应能力。
ARmax = 100：对每幅图像进行一百次检测后的平均召回率，进一步考察模型在更多次检测时的召回性能。
ARsmall：对于小目标（面积 < 32²）的 AR 值，用于评估模型对小目标的召回能力。
ARmedium：对于中目标（面积在 32² - 96² 之间）的 AR 值，衡量模型对中等目标的召回效果。
ARlarge：对于大目标（面积 > 96²）的 AR 值，体现模型对大尺寸目标的召回情况。

分类准确率相关指标

Top - 1 acc：只判断概率最大的结果是否是正确答案，如果是则准确。该指标用于评估模型在多分类任务中直接预测最可能类别时的准确性。
Top - 5 acc：在图片分类任务中，当输入一张图片时，网络会输出所有分类类别的概率。Top - 5 正确率是指在这些概率中，取前 5 个最大的分类概率，判断输入图片是否在这五个分类当中。如果在，则分类成功，反之则失败。该指标能够在一定程度上反映模型对类别判断的稳定性和准确性。

为了更清晰地展示这些指标之间的关系以及不同指标在实际应用中的效果，我们可以通过图表的形式进行呈现。例如，绘制 Precision - Recall 曲线，横坐标为召回率，纵坐标为精确率，不同的模型可以用不同的曲线表示，这样可以直观地比较不同模型在精确率和召回率之间的权衡关系。

另外，对于目标尺寸相关的指标，可以绘制柱状图，分别展示不同模型在小、中、大目标上的 AP 值或 AR 值，以便清晰地看出各个模型在不同尺寸目标检测上的优势和劣势。

通过对这些专业术语和评估指标的深入理解，我们能够更好地设计、训练和评估深度学习模型，推动目标检测、图像分类等任务的发展。

以上布局通过不同的章节和小标题将内容进行了清晰的划分，同时在适当的地方提到了可以使用图表来辅助理解，使文章更具专业性和可读性。您可以根据实际需求进一步添加具体的图表。
在这里插入图片描述

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git