【深度学习】Transformer之Masked Multi-Head Attention

对应着上面的a和b。

相思啊 · 2024-02-03 17:04:41 发布

在这里插入图片描述

在这里插入图片描述
3. 再看 $q_2$ , 都不屏蔽。

在这里插入图片描述
$b_1$ 由 $a_1$ 生成
$b_2$ 由 $a_1, a_2$ 生成
$b_3$ 由 $a_1, a_2, a_3$ 生成
$b_4$ 由 $a_1, a_2, a_3, a_4$ 生成

在这里插入图片描述
由我 -> 爱，北京，天安门
由我，爱 -> 北京，天安门
由我，爱，北京 -> 天安门

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

基于《2023腾讯云容器和函数计算技术实践精选集》—探索腾讯云TKE的Docker容器、Serverless和微服务优势

【愚公系列】深入探索《2023腾讯云容器和函数计算技术实践精选集》：案例解析与实用建议

腾讯云2023: 容器与函数计算实践精选，引领Serverless与Docker容器新趋势

查看更多评论

已为社区贡献2条内容