强化学习的分类:

强化学习可以分为两大类:①有模型的强化学习;②无模型的强化学习

通常可以用马尔可夫决策过程来定义强化学习任务,并将其表示为四元组,分别是状态集合、动作集合、状态转移函数和奖励函数,假设这四元中组中所有元素已知,且状态集合和动作集合在有限步数内是有限集,则机器学习可以对真实环境进行建模,通过学习状态转移函数来构建一个虚拟环境,以模拟真实环境的状态和交互和反映,这就是有模型强化学习。然而在实际应用中,智能体并不是那么容易就能知晓马尔可夫决策过程中的所有元素的,通常情况下,状态转移函数和奖励函数很难估计,甚至连环境中的状态都可能是未知的,所以才有了无模型强化学习

无模型强化学习又可以分为基于价值迭代基于策略迭代两种方式。

基于价值迭代:

智能体不需要制定显示的策略,只需要维护一个价值表格或价值函数,并通过这个价值表格或价值函数来选取价值最大的动作。通常智能应用于离散的环境下,对于行为集合规模庞大、动作连续的场景,很难学习到较好的结果。

基于策略迭代:

能够通过分析所处的环境,直接输出下一步要采取的各种动作的概率,然后根据概率采取动作,所以每种动作都有可能被选中,只是可能性不同,这样便可以用来处理连续动作。这一类的智能体会制定一套动作策略,并根据这个策略进行操作,直接对策略进行优化,使定制的策略能够获得最大的奖励。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐