强化学习中损失与奖赏的关系

文章目录前言正文前言这是一个实践中普遍遇到的问题，这里对https://datascience.stackexchange.com/questions/37792/reinforcement-learning-decreasing-loss-without-increasing-reward上面的回答进行翻译以及个人见解的记录。正文监督学习和强化学习之间的区别在于，监督学习是提供指导性的反馈——损

强殖装甲凯普

2349人浏览 · 2020-08-05 21:24:04

强殖装甲凯普 · 2020-08-05 21:24:04 发布

文章目录

前言
正文

前言

这是一个实践中普遍遇到的问题，这里对https://datascience.stackexchange.com/questions/37792/reinforcement-learning-decreasing-loss-without-increasing-reward上面的回答进行翻译以及个人见解的记录。

正文

监督学习和强化学习之间的区别在于，监督学习是提供指导性的反馈——损失——来解决问题，而强化学习是提供评估性反馈——奖赏——解决问题。然后我们探究损失曲线与强化学习之间的关系。

损失曲线逐渐下降，对于神经网络来说意味着参数的收敛，函数近似趋于稳定，更低的损失意味着对当前策略值的更准确的预测。从技术上讲，Q-learning off-policy的估计更复杂，但收敛性仍将受到当前策略中可获得的经验的限制。不幸的是，强化学习中的损失度量不能反映该策略有多好。所以这意味着我们的策略被设定在这样的一个模式，在这个模式里，值可以通过我们使用的神经网络估计。出于某种原因,它不是像通常那样在损失指标下降之前发现策略的改进，因为每个改善的值估计应该显示更好的可能的动作，而且一旦那些被一个新的策略采用,价值估计就会变得过时，然后损失就会再次增加。

探索可能是个问题，这种情况下的“局部最小值”可能不是神经网络的问题，但策略上的微小变化都比当前的策略更糟糕。当我们使用的是off-policy，那么提高探索率可能会帮助我们找到更好的状态，而代价是整体学习速度变慢。此外，对每个动作进行比随机更广泛的探索方法可能更好——例如，动作选择方法能够始终如一地选择未探索的状态-动作对，如置信上限。

还有一种可能是，在当前的策略下，我们的网络结构很好地归纳了，但不能涵盖更好的策略。在这种情况下，每当探索提出一个更好的策略时，网络也会增加对不相关的动作选择的估计值，因此它会尝试它们，注意到它们更好，然后回退，因为新值在其他场景下也会导致不必要的策略更改。

如果我们知道一个比当前搜索到的策略更好的策略，那么我们可以在策略固定的情况下绘制一条损失曲线，看看网络是否可以学习它。然而，通常我们不知道这一点，所以我们可能会被困在尝试一些神经网络结构或其他超参数的变化的泥潭中。

综上，强化学习应该关注评估性反馈——episode累加奖赏——的变化。观察损失曲线与episode累加奖赏的变化，损失曲线下降但是episode累加奖赏没有提升。这里我们认为算法在探索上或者奖赏函数设置——评估指标——上存在问题。没有充分地探索使得算法没有收集足够的优秀策略轨迹的经验片段，从而改进策略，提高episode累加奖赏。或者是奖赏函数没有很好地刻画环境中优秀策略应有的效果。这一部分是算法本身或者是参数设置的问题，另一方面跟环境本身有关。该环境，状态空间和动作空间较大，需要探索的地方太多。同时由于缺乏白方视角，环境奖赏函数设计全凭专家经验，可能会有所偏差。而且奖赏稀疏，使得算法学习困难。

模型在该场景中表现不佳，一方面可能是因为没有进行精细调参，导致模型效果较差。另一方面可能是因为环境状态空间和动作空间较大，导致探索不足，策略难以得到改进。除此之外，由于缺乏白方视角，评估性指标全凭专家经验，我们对场景以及任务的理解决定了我们评估性指标设计的优劣，评估性指标引导智能体策略改进的方向，其与任务的匹配程度决定了策略改进方向的正确性。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git