强化学习中损失与奖赏的关系
文章目录前言正文前言这是一个实践中普遍遇到的问题,这里对https://datascience.stackexchange.com/questions/37792/reinforcement-learning-decreasing-loss-without-increasing-reward上面的回答进行翻译以及个人见解的记录。正文监督学习和强化学习之间的区别在于,监督学习是提供指导性的反馈——损
前言
这是一个实践中普遍遇到的问题,这里对https://datascience.stackexchange.com/questions/37792/reinforcement-learning-decreasing-loss-without-increasing-reward上面的回答进行翻译以及个人见解的记录。
正文
监督学习和强化学习之间的区别在于,监督学习是提供指导性的反馈——损失——来解决问题,而强化学习是提供评估性反馈——奖赏——解决问题。然后我们探究损失曲线与强化学习之间的关系。
损失曲线逐渐下降,对于神经网络来说意味着参数的收敛,函数近似趋于稳定,更低的损失意味着对当前策略值的更准确的预测。从技术上讲,Q-learning off-policy的估计更复杂,但收敛性仍将受到当前策略中可获得的经验的限制。不幸的是,强化学习中的损失度量不能反映该策略有多好。所以这意味着我们的策略被设定在这样的一个模式,在这个模式里,值可以通过我们使用的神经网络估计。出于某种原因,它不是像通常那样在损失指标下降之前发现策略的改进,因为每个改善的值估计应该显示更好的可能的动作,而且一旦那些被一个新的策略采用,价值估计就会变得过时,然后损失就会再次增加。
探索可能是个问题,这种情况下的“局部最小值”可能不是神经网络的问题,但策略上的微小变化都比当前的策略更糟糕。当我们使用的是off-policy,那么提高探索率可能会帮助我们找到更好的状态,而代价是整体学习速度变慢。此外,对每个动作进行比随机更广泛的探索方法可能更好——例如,动作选择方法能够始终如一地选择未探索的状态-动作对,如置信上限。
还有一种可能是,在当前的策略下,我们的网络结构很好地归纳了,但不能涵盖更好的策略。在这种情况下,每当探索提出一个更好的策略时,网络也会增加对不相关的动作选择的估计值,因此它会尝试它们,注意到它们更好,然后回退,因为新值在其他场景下也会导致不必要的策略更改。
如果我们知道一个比当前搜索到的策略更好的策略,那么我们可以在策略固定的情况下绘制一条损失曲线,看看网络是否可以学习它。然而,通常我们不知道这一点,所以我们可能会被困在尝试一些神经网络结构或其他超参数的变化的泥潭中。
综上,强化学习应该关注评估性反馈——episode累加奖赏——的变化。观察损失曲线与episode累加奖赏的变化,损失曲线下降但是episode累加奖赏没有提升。这里我们认为算法在探索上或者奖赏函数设置——评估指标——上存在问题。没有充分地探索使得算法没有收集足够的优秀策略轨迹的经验片段,从而改进策略,提高episode累加奖赏。或者是奖赏函数没有很好地刻画环境中优秀策略应有的效果。这一部分是算法本身或者是参数设置的问题,另一方面跟环境本身有关。该环境,状态空间和动作空间较大,需要探索的地方太多。同时由于缺乏白方视角,环境奖赏函数设计全凭专家经验,可能会有所偏差。而且奖赏稀疏,使得算法学习困难。
模型在该场景中表现不佳,一方面可能是因为没有进行精细调参,导致模型效果较差。另一方面可能是因为环境状态空间和动作空间较大,导致探索不足,策略难以得到改进。除此之外,由于缺乏白方视角,评估性指标全凭专家经验,我们对场景以及任务的理解决定了我们评估性指标设计的优劣,评估性指标引导智能体策略改进的方向,其与任务的匹配程度决定了策略改进方向的正确性。
更多推荐
所有评论(0)