多兴趣推荐召回模型：MIND

Multi-Interest Network with Dynamic routing (MIND) ，能够提取多个用户兴趣向量，更好地捕捉用户多方面的兴趣。

我就算饿死也不做程序员

1929人浏览 · 2023-03-17 22:02:33

我就算饿死也不做程序员 · 2023-03-17 22:02:33 发布

在这篇文章深入浅出地理解Youtube DNN推荐模型中，介绍了深度学习召回模型YouTube DNN，以及推荐系统的召回阶段是怎样一个流程：YouTube DNN计算得到用户兴趣向量，然后与所有item向量的进行最邻近搜索，召回最相关的n个。

但一个用户兴趣向量很难捕获用户多方面的兴趣，可能会出现召回item雷同的情况；

更甚至，当模型计算的用户兴趣向量不准的话，那召回的item可能全是与用户的兴趣偏移的。

2019阿里的论文《Multi-Interest Network with Dynamic Routing for Recommendation at Tmall》就提出一个新的模型 Multi-Interest Network with Dynamic routing (MIND) ，能够提取多个用户兴趣向量，更好地捕捉用户多方面的兴趣。

问题定义

${I_u}$ ：用户行为，即用户发生交互（例如点击）的item集合，对应上图User Behavior Sequence：item1、item2、…、item N

${P_u}$ ：用户的基础属性，如性别、年龄，对应上图的Other Features

${F_i}$ ：目标item的属性，例如item id、category id，对应上图的Label

MIND模型的目标就是通过用户行为+用户基础属性，计算用户的K个兴趣向量 ${V_u}$ （当K=1时，则与YouTube DNN类似）：

${V_u=f_{user}(I_u,P_u)},\ when\ V_u=(\vec{v}_u^1,....,\vec{v}_u^K)$

${\vec{e}_i}$ ：item的表征向量（为了缓解冷启动，是多种属性的embedding进行 average pooling）：

${\vec{e}_i}=f_{item}(F_i)$

最后，当用户兴趣向量和item表征向量充分学习之后，在召回阶段，K个用户兴趣向量都可以用来召回item：

${f_{score}(V_u,\vec{e}_i)=max_{1\le k \le K}\ \vec{e}_i^T \vec{u}_i^k}$

下面，我们将每一层拆分来，分别进行讲解。

Embedding & Pooling Layer

用户的多个属性，经过Embedding Layer映射为多个embedding，然后进行拼接；
如上述，item的话，多个属性映射为embeeding之后，是通过进行average pooling，即上图的Pooling Layer。

Multi-Interest Extractor Layer

为了学习用户的多个兴趣向量，这篇论文通过类似聚类的方法，将用户的历史行为（对应下图的item embedding输入）聚合分组为多个cluster（对应interest capsule，即用户兴趣capsule），一个cluster代表用户一个方面的兴趣，这也正是Multi-Interest Extractor Layer所做的事情。

capsule network

提取用户兴趣向量主要借鉴的方法是capsule network（胶囊网络），因此在进入Multi-Interest Extractor Layer讲解之前，需要搞清楚capsule network的原理。

capsule network由low-level的capsule和high-level的capsule组成，目的在于通过 Dynamic Routing（动态路由）的方式，根据low-level capsule来计算得到high-level的 capsule。

low-level capsule： ${\vec{c}_i^l} \in R^{N_l \times 1},\ i \in \{1,....,m\}$

high-level capsule： ${\vec{c}_j^h} \in R^{N_h \times 1},\ i \in \{1,....,n\}$

routing logit：${b_{ij}}=(\vec{c}j^h)T S{ij} \vec{c}_i^l $

其中 ${S_{ij}} \in R^{N_h \times N_l}$ 为双线性映射矩阵，是需要学习的参数

接着，可以得到high-level capsule的候选向量：

${\vec{z}_j^h}=\sum_{i=1}^m w_{ij}S_{ij}\vec{c}_i^l$

${w_{ij}}$ 是连接high-level capsule和low-level capsule的权重：

${w_{ij}}=\frac{exp\ b_{ij}}{\sum_{i=1}^m exp\ b_{ij}}$

最后，通过非线性的squash函数得到high-level capsule的向量，即capsule network的输出（目标产物），可作为下一层网络层的输入。

另外还有几个细节：

${b_{ij}}$ 一般是初设化为0；
为了能够收敛，整个动态路由过程一般重复3次，即以上由low-level capsule得到high-level capsule的过程；
由于high-level capsule是capsule network的输出，我们的输入只有low-level capsule，所以第一次routing无法计算得到 $b_{ij}$ ，才需要将 $b_{ij}$ 初设化为0；
借由第一次routing过程计算得到的high-level capsule，就可以给到后面的routing过程中了。

B2I Dynamic Routing

论文对经典的capsule network作了一些调整，称为Behavior-to-Interest (B2I) dynamic routing，可以从字面意思理解，就是通过用户的行为，通过动态路由的方法得到用户兴趣向量。

在这个场景下，low-level capsule对应用户的行为，更具体点，就是用户发生交互的item向量；

high-level capsule对应用户的多个兴趣capsule。

调整的包括以下3个方面：

A. Shared bilinear mapping matrix：不同于经典的capsule network中每一对low-level capsule和high-level capsule的共享双线性映射矩阵S是不同的；

这篇论文调整为共享双线性映射矩阵S，一方面是Tmall用户行为长度都在数百以内，所以认为双线性映射矩阵S是可以泛化的；另一方面是希望用户兴趣capsule能够处于相同的向量空间，但不同的双线性映射矩阵S会导致用户兴趣capsule映射到不同向量空间。

B. Randomly initialized routing logits：前面提到routing logit ${b_{ij}}$ 初设化为0，但由于共享了双线性映射矩阵S，这就会导致相同的初设兴趣capsule，即第一次动态路由iteration时K个初设兴趣capsule相同。所以将 ${b_{ij}}$ 初设化修改为高斯分布 ${N(0,\delta^2)}$