一、卷积神经网络

1. 核心思想与目标
CNN的核心思想是局部连接权重共享空间层次化特征提取
。它仿照生物视觉皮层的结构,专门设计用来处理具有类似网格结构的数据,如图像(2D像素网格)、视频(时间+图像)甚至1D信号(如音频、文本序列)。

2. 核心结构组件

  • 卷积层:核心操作。使用可学习的滤波器(卷积核)在输入数据上滑动,计算局部区域的点积,提取边缘、纹理、形状等局部特征。
  • 池化层:通常跟在卷积层后。对特征图进行下采样(如最大池化、平均池化),减少数据维度、计算量和参数数量,同时增强特征的不变性(轻微平移、旋转不变)。
  • 全连接层:在网络的末端。将前面提取的、经过多次卷积和池化的高度抽象特征进行整合,用于最终的分类或回归任务。
  • 激活函数:引入非线性(如ReLU),使网络能够学习复杂的模式。

3. 典型架构

  • LeNet-5:早期用于手写数字识别。
  • AlexNet:2012年ImageNet竞赛冠军,深度CNN的开端。
  • VGGNet:使用更小的卷积核(3x3)堆叠深层网络,结构简洁。
  • GoogLeNet / Inception:引入Inception模块,并行使用不同尺寸的卷积核,高效提取多尺度特征。
  • ResNet:提出残差连接,解决了深层网络训练中的梯度消失/爆炸问题,使得网络可以做到数百甚至上千层。

4. 主要应用

  • 图像分类(如识别猫狗、物体)
  • 目标检测(如YOLO, Faster R-CNN)
  • 图像分割(如U-Net)
  • 人脸识别
  • 医学影像分析
  • 风格迁移

5. 优点与缺点

  • 优点:参数共享,计算效率高;自动提取层次化特征,对平移、缩放有一定鲁棒性。
  • 缺点:对输入数据的空间结构有要求;缺乏处理序列数据中长期依赖关系的能力。

二、循环神经网络

1. 核心思想与目标
RNN的核心思想是引入“记忆”,其网络结构中包含循环连接,使得信息可以在序列的多个步骤中持久化。它专门为处理序列数据
(如时间序列、文本、语音)而设计,其输出不仅依赖于当前输入,还依赖于之前的状态。

2. 核心结构组件

  • 循环单元:每个时间步共享参数的单元。
  • 隐藏状态:网络的“记忆”,从前一时间步传递到当前时间步,并随着新输入而更新。
  • 展开视图:将RNN在时间维度上展开,可以清晰地看到它像是一个深度网络,但不同层(时间步)共享权重。

3. 主要变体与结构

  • 双向RNN:同时从前向和后向处理序列,捕获过去和未来的上下文信息。
  • 深度RNN:堆叠多个RNN层,以学习更复杂的特征表示。

4. 主要应用

  • 时间序列预测(如股票价格、天气)
  • 语言建模(预测下一个词)
  • 简单文本分类

5. 优点与缺点

  • 优点:模型参数在时间步上共享,能处理任意长度的序列;理论上可以利用任意长历史信息。
  • 缺点(致命缺陷):在训练长序列时,容易出现梯度消失梯度爆炸问题,导致难以学习到序列中的长期依赖关系

三、长短期记忆网络

1. 核心思想与目标
LSTM是RNN的一种革命性改进,专门设计用来解决标准RNN的长期依赖问题。它通过引入精妙的“门控机制”来有选择地遗忘旧信息、*
*记忆**新信息,从而有效地控制和传递长距离的信息。

2. 核心结构组件 - “门控机制”
LSTM单元的核心是细胞状态和三个门:

  • 细胞状态:信息传输的“高速公路”,在整个链路上只进行少量的线性交互,使得信息可以几乎无损地长距离流动。
  • 遗忘门:决定从细胞状态中丢弃哪些信息。
  • 输入门:决定将哪些新信息存入细胞状态。
  • 输出门:基于细胞状态,决定输出什么信息到隐藏状态。

3. 主要变体

  • GRU:LSTM的简化版本,将遗忘门和输入门合并为“更新门”,并合并了细胞状态和隐藏状态,参数更少,计算更快,效果通常与LSTM相当。

4. 主要应用

  • 机器翻译(Seq2Seq模型的核心编码器/解码器)
  • 文本生成(如写诗、写新闻)
  • 语音识别
  • 视频内容分析
  • 音乐生成

5. 优点与缺点

  • 优点:有效解决了RNN的长期依赖问题,是处理长序列任务的“利器”;门控机制非常灵活。
  • 缺点:结构复杂,计算成本高于标准RNN;参数较多,可能需要更多数据来训练。

总结与对比

特性 CNN RNN LSTM
核心设计 空间局部连接,权重共享 时间循环连接,状态记忆 门控循环连接,选择性记忆
数据假设 数据具有空间/网格结构(如图像) 数据是序列,元素有序 数据是长序列,存在长期依赖
关键结构 卷积层、池化层 简单循环单元 细胞状态、遗忘门、输入门、输出门
主要问题 不擅长处理序列 梯度消失/爆炸,难学长期依赖 计算复杂,参数多
典型任务 图像分类、目标检测 简单时间序列预测、短文本建模 机器翻译、长文本生成、语音识别
关系 - LSTM是RNN的高级/改进版本 是RNN家族中最成功的成员之一

现代发展趋势

  1. 融合与混合架构:现代复杂任务常结合多种网络。例如:
    • 图像描述:CNN(提取图像特征) + LSTM(生成描述句子)。
    • 视频分类:3D CNN(提取时空特征)或 CNN + LSTM。
  2. 注意力机制与Transformer:注意力机制允许模型直接关注输入序列中任何位置的相关信息,彻底摆脱了RNN/LSTM的循环结构。*
    Transformer* 模型及其后代(如BERT, GPT)在NLP领域已基本取代RNN/LSTM,成为新的主流。它并行效率更高,且能更好地处理超长距离依赖。
  3. CNN的泛化:CNN的思想也被成功应用于非图像数据,如1D-CNN处理文本、时间序列。

**CNN是处理空间相关性的王者,而LSTM(作为RNN的代表)曾是处理时间/序列相关性的王者,但现在正逐渐被基于注意力机制的Transformer架构所超越或补充
**。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐