计划采样 Scheduled Sampling 和 强化学习辅助

当我们用Seq2Seq模型进行训练和测试的时候,很容易遇到Mismatch的问题,因为训练的时候,不同的timestep输入的是groudTruth的值,但是测试的时候,不同的timestep输入的是生成的值。具体我们看下面的解释。

1. 训练和测试的Mismatch

训练的时候:
在这里插入图片描述

测试的时候:
Testing: The inputs are the outputs of the last time step.
在这里插入图片描述

这会造成什么问题呢? 训练的时候错一步,只一步,测试的时候一步错,步步错!
在这里插入图片描述

2. Scheduled Sampling

我们训练的时候兼顾reference和generation,兼顾的方式是按照概率选择。
在这里插入图片描述
但是选择不是随机的,训练开始的时候,还是以referenc为主,到训练后期,参考自己生成的
在这里插入图片描述

3. 强化学习辅助

通过强化学习,而不是人为设定,进行结果序列生成。 最终的结果的reward决定训练的过程。
在这里插入图片描述

本专栏图片、公式很多来自台湾大学李弘毅老师、斯坦福大学cs229,斯坦福大学cs231n 、斯坦福大学cs224n课程。在这里,感谢这些经典课程,向他们致敬!

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐