深度学习笔记之Seq2seq(二)基于Seq2seq注意力机制的动机

上一节介绍了Seq2seq网络常用的基本结构以及在机器翻译任务中，关于目标函数与预测概率的描述。本节依然以机器翻译任务为例，对Seq2seq中的注意力机制(Attention)进行描述。

静静的喝酒

1317人浏览 · 2023-06-10 14:05:14

静静的喝酒 · 2023-06-10 14:05:14 发布

深度学习笔记之Seq2seq——基于Seq2seq注意力机制的动机

引言

引言

上一节介绍了 $\text{Seq2seq}$ 网络常用的基本结构以及在机器翻译任务中，关于目标函数与预测概率的描述。本节依然以机器翻译任务为例，对 $\text{Seq2seq}$ 中的注意力机制 $(\text{Attention})$ 进行描述。

回顾：基于机器翻译任务的 $\text{Seq2seq}$ 网络结构

关于机器翻译任务的 $\text{Seq2seq}$ 网络结构表示如下：

Seq2seq网络结构(机器翻译)
该结构包含编码器 $(\text{Encoder})$ 与解码器 $\text{Decoder}$ 两部分。并且它们均是循环神经网络的网络结构。已知在编码器中输入的序列数据 $\mathcal X$ 表示如下：
$\mathcal X = (x^{(1)},x^{(2)},\cdots,x^{(\mathcal T)})^T$
通过循环神经网络我们可以得到最终 $\mathcal T$ 时刻的序列信息 $\text{Context}$ 向量，记作 $\mathcal C$ 。其中 $\mathcal C$ 记录了序列数据 $\mathcal X$ 所有时刻的序列信息。

在解码器的执行过程中，初始状态下，给定一个初始标识符 $\left\langle\text{Start}\right\rangle$ ，基于 $\text{Encoder}$ 读取的序列信息 $\mathcal C$ ，我们可以求解翻译过程中初始时刻 $y^{(1)}$ 的条件概率结果：
其中‘初始标识符’ $\left\langle\text{Start}\right\rangle$ 本身不包含任何语义信息。这里将其忽略;
$y^{(1)} \Rightarrow \mathcal P(y^{(1)} \mid \mathcal C,\left\langle\text{Start}\right\rangle) = \mathcal P(y^{(1)} \mid \mathcal C)$
在得到概率分布 $\mathcal P(y^{(1)} \mid \mathcal C)$ 的同时，我们同样可以得到解码器初始时刻的序列信息 $h_{\mathcal D;1}$ ：

这里以 $\text{RNN}$ 为例, $\text{LSTM,GRU}$ 同理。只不过 $\text{RNN}$ 的表述能够简单一些。
由于 $\left\langle\text{Start}\right\rangle$ 中不包含语义信息，因而不希望其对应的权重 $\mathcal W_{\mathcal C \Rightarrow h_{\mathcal D;1}}$ 学习到任何有用的信息，这里将其忽略。
$\begin{aligned} h_{\mathcal D;1} & = \text{Tanh} \left(\mathcal W_{\mathcal C \Rightarrow h_{\mathcal D;1}} \cdot \mathcal C + \underbrace{\mathcal W_{\text{Start} \Rightarrow h_{\mathcal D;1}} \cdot \left\langle\text{Start}\right\rangle}_{\text{Delete}} + b_{h_{\mathcal D}}\right) \\ & = \text{Tanh}( \mathcal W_{\mathcal C \Rightarrow h_{\mathcal D;1}} \cdot \mathcal C + b_{h_{\mathcal D}}) \end{aligned}$

同理，根据 $\text{Seq2seq}$ 结构，我们同样可以得到下一时刻 $y^{(2)}$ 的后验概率分布以及对应时刻的序列信息 $h_{\mathcal D;2}$ ：
$\begin{aligned} y^{(2)} & \Rightarrow \mathcal P(y^{(2)} \mid \mathcal C,y^{(1)}) \\ h_{\mathcal D;2} \ & = \text{Tanh} \left(\mathcal W_{h_{\mathcal D;1} \Rightarrow h_{\mathcal D;2}} \cdot h_{\mathcal D;1} + \mathcal W_{y^{(1)} \Rightarrow h_{\mathcal D;2}} \cdot y^{(1)} + b_{h_{\mathcal D}} \right) \end{aligned}$
以此类推。而最终关于生成序列 $\mathcal Y$ 基于 $\text{Context}$ 向量 $\mathcal C$ 条件下的联合概率分布 $\mathcal P(\mathcal Y \mid \mathcal C)$ 可表示为：
$\begin{aligned} \mathcal P(\mathcal Y \mid \mathcal C) & = \mathcal P(y^{(1)},y^{(2)},\cdots,y^{(\mathcal T')} \mid \mathcal C) \\ & = \mathcal P(y^{(1)} \mid \mathcal C) \cdot \prod_{t=2}^{\mathcal T'} \mathcal P(y^{(t)} \mid \mathcal C,y^{(1)},\cdots,y^{(t-1)}) \end{aligned}$

注意力机制的动机

循环神经网络作为 $\text{Encoder}$ 产生 $\text{Context}$ 向量的缺陷

如果将解码器各输出的条件概率看做是一个复杂函数 $f(\cdot)$ ，各条件概率可表示为如下形式：
除了第一项，虽然后续函数中没有体现出 $\mathcal C$ 的参与，但实际上，解码器每一个时刻关于 $y^{(t)}(t=1,2,\cdots,\mathcal T')$ 的生成过程均有 $\mathcal C$ 的参与,因为 $h_{\mathcal D;1},h_{\mathcal D;2},\cdots$ 内均有 $\mathcal C$ 参与运算。
$\begin{aligned} y^{(1)} & \Rightarrow \mathcal P(y^{(1)} \mid \mathcal C) = f(\mathcal C) \\ y^{(2)} & \Rightarrow \mathcal P(y^{(2)} \mid y^{(1)},\mathcal C) = f(y^{(1)},h_{\mathcal D;1}) \Rightarrow f(y^{(1)},\underbrace{\mathcal C}_{\text{from } h_{\mathcal D;1}}) \\ y^{(3)} & \Rightarrow \mathcal P(y^{(3)} \mid y^{(1)},y^{(2)},\mathcal C) = f(y^{(2)},h_{\mathcal D;2}) \Rightarrow f(y^{(2)},\underbrace{y^{(1)},\mathcal C}_{\text{from } h_{\mathcal D;2}})\\ & \quad \quad \quad \quad \quad \vdots \end{aligned}$
因此，有：在生成 $y^{(t)}(t=1,2,\cdots,\mathcal T')$ 的每一个时刻中，都需要对原始的原始的输入数据 $\mathcal X$ 进行读取，并生成 $\text{Context}$ 向量 $\mathcal C$ 。
这里描述的重点是：每生成一个 $y^{(t)}$ ,都要重新从 $\text{Encoder}$ 中生成一遍 $\mathcal C$ ,再对 $y^{(t)}$ 进行翻译。

遗忘问题：但是这个过程的问题在于：由于循环神经网络梯度消失的问题，导致我们从 $\mathcal X$ 学习的 $\mathcal C$ 并不准确。这种不准确主要体现在： $\mathcal C$ 对 $\mathcal X$ 初始时刻信息存在遗忘现象。

由于梯度消失，导致 $\mathcal C$ 仅能有效地描述最后‘若干个’时刻的序列信息，对 $\mathcal X$ 初始时刻的序列信息，它并不能有效地记忆——长距离依赖问题。
我们不否认 $\text{LSTM},\text{GRU}$ 能够缓解这种问题，以 $\text{GRU}$ 为例。以时间、空间复杂度的代价，通过‘路径’量的堆积以及‘更新门、重置门’结构的调节，使其有更多的可能将梯度传递给更深(更初始)的时刻。但是随着序列的增长，每一条路径的‘梯度消失现象’是客观存在的。

基于这种现象，可能导致：翻译出来的句子结果仅与 $\mathcal X$ 后半段信息存在更多关联。

对齐问题：在正常的翻译逻辑中，翻译结果与被翻译句子之间，某些词之间存在映射关系。例如：
中文：早上好。
英文： $\text{Good morning}$ .
很明显，有：
早上 $\Rightarrow \text{morning}$ ;
好 $\Rightarrow \text{good}$ .
但是在 $\text{Context}$ 向量 $\mathcal C$ 作为解码器的输入，并不能很好地描述这个映射关系。换句话说：由于 $\mathcal C$ 仅仅描述的是最终时刻的序列信息，如果 $\mathcal C$ 描述的是早上好这句话的序列信息，无法将早上和好这两个词从 $\mathcal C$ 中挑选出来。
相当于这个‘固定大小的序列向量’ $\text{Context}$ 将每个词在句子中的序列信息‘混在一起’,单个词相关的序列信息无法‘单独拎出来’。

注意力机制处理上述两种问题

我们基于序列数据 $\mathcal X$ 学习到的序列信息，如何避免上述两种情况 $?$
一种直观的想法是：在学习过程中，将每一时刻的序列信息 $h^{(t)}(t=1,2,\cdots,\mathcal T)$ 都存储下来：
$x^{(t)} \rightarrow h^{(t)} \Rightarrow \mathcal X \rightarrow \mathcal H = (h^{(1)},h^{(2)},\cdots,h^{(\mathcal T)})^T$
此时在解码过程中不再使用最终 $\mathcal T$ 时刻序列信息作为 $\text{Context}$ 向量 $\mathcal C$ 了，因为上述两种问题 $\mathcal C$ 无法解决。随之而来的是各时刻序列信息组成的矩阵 $\mathcal H$ ，新的问题随之出现：如何使用 $\mathcal H$ 取描述/确定 $\text{Context}$ 向量 $\mathcal C ?$

例如如下的翻译例子：
中文：我是一名演员。
期望的翻译结果：
英文： $\text{I am an actor}$ .

首先观察 $\text{am}$ 这个词，它在编码前的中文对应的是这个词，也就是说：是这个词对翻译结果 $\text{am}$ 的作用很大。另一个问题：翻译结果为 $\text{am}$ ，对这个翻译结果产生贡献的仅仅只有[是]这一个词吗 $?$

在这里明显不是。 $\text{am}$ 在英语中是 $\text{be}$ 动词的一种，一般用来表示[是]这个意思， $\text{be}$ 动词有好多种( $\text{am,is,are,was,were},\cdots$ )，为什么这里要选择 $\text{am}?$ 因为：输入的序列数据 $\mathcal X$ 中是第一人称——[我]。

假设从重要程度的角度观察，翻译结果 $\text{am}$ 关于输入序列数据 $\mathcal X$ 中各词的重要程度表示如下：
这里的‘重要程度’ $0.3, 0.7$ 是假设的结果。

输入序列数据关于翻译结果的重要程度
这仅仅是从句子逻辑的角度考虑的，那换成向量呢 $?$ 由于 $h^{(1)},h^{(2)},\cdots h^{(\mathcal T)} \in \mathcal H$ 中， $h^{(t)}$ 所包含的序列信息也包含前面 $t - 1$ 个时刻的序列信息，只不过因遗忘的因素存在， $t$ 值越来越大，初始时刻保留的信息越来越少而已。将上述信息用向量进行表示，具体的重要程度分布表示如下：
这里比例设置得可能不太平衡，这仅是一个示例。

序列信息关于翻译结果的重要程度——示例
至此，可以认为：解码器预测的结果是基于编码器各时刻隐状态的共同结果，只不过不同隐状态对应的权重比率不同而已。从而针对这些向量进行加权求和：
$\mathcal C_2 = \mathcal C_{\text{am}} \Rightarrow 0.2 * h^{(1)} + 0.7 * h^{(2)} + 0.05 * h^{(3)} + 0.03 * h^{(4)} + 0.02 * h^{(5)}$
这种基于加权求解解码器输出的方式相比于之前之前所有输出均基于 $\text{Context}$ 向量 $\mathcal C$ 的方式而言，能够得到更有注意力偏向的结果。
这里同样可以例举一个 $\text{an}$ 的例子。 $\text{an}$ 是不定冠词，为什么不选择 $\text{a}$ 而是选择 $\text{an}$ ——很明显，其后面第一个词是 $\text{actor}$ ,开头是元音字母。因此 $\text{an}$ 的生成从句子角度观察与[一名],[演员]两个词都有关联关系，这里就不展开描述了。

两者最明显的区别在于：每一个词均有不同的注意力偏向，即不同的 $\text{Context}$ 向量与其对应 $(\mathcal C_1,\mathcal C_2,\cdots)$ 。从而不再共用同一个 $\text{Context}$ 向量 $\mathcal C$ ：
这里两种方式做一个比对。
$\begin{aligned} \begin{cases} y^{(1)} & = f(\mathcal C) \\ y^{(2)} & = f(y^{(1)},\mathcal C) \\ y^{(3)} & = f(y^{(1)},y^{(2)},\mathcal C) \\ & \vdots \\ \end{cases} \Longleftrightarrow \begin{cases} y^{(1)} & = f(\mathcal C_1) \\ y^{(2)} & = f(y^{(1)},\mathcal C_2) \\ y^{(3)} & = f(y^{(1)},y^{(2)},\mathcal C_3) \\ & \vdots \\ \end{cases} \end{aligned}$

权重系数求解

针对上面描述，我们确定了针对不同的解码输出，从而对编码部分构建不同的注意力偏向。问题在于：这个偏向，也就是各时刻序列信息的权重系数/权重比例如何求解：

依然以上面的我是一名演员。 $\Rightarrow \text{I am an actor .}$ 为例。假设 $t = 2$ 时刻要预测 $\text{am}$ 这个单词，如何给原始各时刻的序列信息 $h^{(1)},h^{(2)},h^{(3)},h^{(4)},h^{(5)}$ 分配权重 $?$

一种朴素的想法：

在解码过程的 $t(t=1,2,\cdots,\mathcal T')$ 时刻，选择该时刻的一个向量 $\mathcal Q_t$ ；
让 $\mathcal Q_t$ 分别与编码器各时刻的序列信息 $h^{(i)}(i=1,2,\cdots,\mathcal T)$ 进行比较，计算它们之间的相似度结果 $\text{Score}(\mathcal Q_t,h^{(i)})$ ，相似度高的 $\text{Score}$ 数值更大;
最终将个 $\text{Score}$ 结果做一个归一化操作即可。

基于这种想法，关于解码器的 $t$ 时刻，此时 $y^{(t)}$ 还没有被预测出来，那么选择哪一个向量作为 $\mathcal Q_t$ 与 $h^{(i)}(i=1,2,\cdots,\mathcal T)$ 进行比较呢 $?$

两种思路：

将解码器中当前 $t$ 时刻的上一时刻( $t - 1$ )的隐状态 $h_{\mathcal D;t-1}$ 作为 $\mathcal Q_t$ ；
将解码器中当前 $t$ 时刻的隐状态 $h_{\mathcal D;t}$ 作为 $\mathcal Q_t$ ；

无论 $\mathcal Q_t$ 使用哪种选择方式，都被称作查询向量 $(\text{Query})$ 。这里首先介绍 $\text{Score}(\mathcal Q_t,h^{(i)})$ 的计算方式。

$\text{Score}$ 函数的计算方式

计算两向量之间的相似度，最先想到的就是余弦相似度 $(\text{Cosine Similarity})$ 。具体做法就是两向量之间做内积：
$\mathcal M^T\mathcal N = (m_1,m_2,\cdots m_k) \begin{pmatrix} n_1 \\ n_2 \\ \vdots \\ n_k \end{pmatrix} = m_1n_1 + m_2n_2 + \cdots + m_kn_k \quad \mathcal M,\mathcal N \in \mathbb R^{k \times 1}$
内积数值越大，意味着两向量的相似性程度越高；我们仅需要将解码器产生的查询向量 $\mathcal Q_t$ (例如： $h_{\mathcal D;t}$ )与编码器中各时刻产生的序列信息 $h^{(i)}(i=1,2,\cdots,\mathcal T)$ 进行内积即可。

但这种操作的问题在于：需要 $\mathcal Q_t$ 与 $h^{(i)}$ 之间的张量格式相同，否则无法执行内积。这里的张量格式具体指什么 $?$ 不可否认的是： $\text{Seq2seq}$ 模型结构中的 $\text{Encoder}$ 和 $\text{Decoder}$ 是两个独立的循环神经网络结构。这里以单层 $\text{GRU}$ 神经网络为例：

已知某 $\text{Batch}$ 的数据格式为： $[100, 10, 8]$ 。其中：

$100$ 表示 $\text{BatchSize}$ 大小；
$10$ 表示文本的序列长度；
$8$ 表示每个词的 $\text{Embedding}$ 维数；

关于 $\text{GRU}$ 的参数描述： $\text{EmbedSize = 8}$ ；就是词语的 $\text{Embedding}$ 维数； $\text{NumHiddens= 16}$ ；(这里随意选择的值)表示神经元个数，但是这个参数和输出的序列长度，或者是 $\text{RNN}$ 的循环次数之间没有任何关系。

在 $\text{Seq2seq}$ 基本介绍中提到过，循环神经网络输入与输出的序列长度相同。这也是它无法直接做机器翻译的弊端。同理， $\text{NumLayers = 2}$ 表示如果是深度循环神经网络，该参数描述神经网络堆叠的层数。观察上述格式数据，进入 $\text{GRU}$ 网络后的输出结果：

import torch
from torch import nn as nn

BatchSize = 100
SeqLength = 10
EmbedSize = 8
NumHiddens = 16
NumLayers = 2

x = torch.randn(BatchSize,SeqLength,EmbedSize).permute(1,0,2)
RNN = nn.GRU(EmbedSize,NumHiddens,NumLayers)
Output,State = RNN(x)
print(x.shape)
print(Output.shape,State.shape)

返回结果如下：

torch.Size([10, 100, 8])
torch.Size([10, 100, 16]) torch.Size([2, 100, 16])

可以看出，关于单个时刻的序列信息 $\text{State}$ ，影响它格式的有 $\text{NumLayers,NumHiddens}$ ，但绝对不会有序列长度相关的信息进行影响。
为什么要强调这个~是因为视频中存在一些偶然情况，导致理解错误。
由于是两个独立的循环结构，不同的网络参数也会影响各自 $\text{State}$ 输出的张量格式，从而导致无法直接求解内积。

这里介绍两种解决方式：

既然 $\mathcal Q_t$ 与 $h^{(i)}$ 之间的张量格式不匹配，通过乘以一个参数矩阵 $\mathcal W_{\mathcal Q_t}$ ，从而使他们的格式匹配，从而进行内积。例如：
为简化起见，仅使用一个样本进行描述。即 $\text{BatchSize=1}$ 并消掉维度;并且 $\text{NumLayers = 1}$ ，主要观察 $\text{NumHiddens}$ 之间的区别。其中 $\mathcal N_{En}$ 表示编码器 $\text{Encoder}$ 的 $\text{NumLayers}$ ; $\mathcal N_{De}$ 表示 $\text{Decoder}$ 的 $\text{NumLayers}$ 。
$\begin{cases} \mathcal Q_t \in \mathbb R^{\mathcal N_{En} \times 1},h^{(i)} \in \mathbb R^{\mathcal N_{De} \times 1} \\ \mathcal W_{\mathcal Q_t} \in \mathbb R^{\mathcal N_{En} \times \mathcal N_{De}}\Rightarrow [\mathcal W_{\mathcal Q_t}]^T \mathcal Q_t \in \mathbb R^{\mathcal N_{De} \times 1} \end{cases}$
在降维中介绍过，这实际上就是一种‘特征转换’：将原始向量(未丢失信息)从当前特征空间映射到高维/低维特征空间。基于映射情况来调整 $\mathcal W_{\mathcal Q_t}$ 内向量间的关系。
最终的内积结果可表示为如下形式：该结果就是编码器 $t$ 时刻的序列信息 $\mathcal Q_t$ 与解码器 $i$ 时刻的生成序列信息 $h^{(i)}$ 的相似度结果。
$\text{Score}(\mathcal Q_t,h^{(i)})= \left[[\mathcal W_{\mathcal Q_t}]^T \mathcal Q_t\right]^T h^{(i)} = [\mathcal Q_t]^T \mathcal W_{\mathcal Q_t} h^{(i)}$
另一种方式就是构建神经网络。将两向量拼接 $(\text{Concatenate})$ 在一起作为神经网络的输入信息；根据神经网络的通用逼近定理 $(\text{Universal Approximation Theorem})$ ，使其结果返回 $\text{Score}$ 作为输出。
需要训练的参数就是神经网络中神经元对应的权重信息。

两种方式的主要区别在于：

内积方法是从余弦相似度的角度出发，虽然中间使用 $\mathcal W$ 执行特征转换，但其结果依然可以表达 $\mathcal Q_t$ 和 $h^{(i)}$ 之间的相关关系；
而神经网络方法则全权交给通用逼近定理了，无法体现出 $\mathcal Q_t$ 与 $h^{(i)}$ 之间的相关关系。

相关参考：
seq2seq与attention机制

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git