强化学习(分类类别)
通常可以用马尔可夫决策过程来定义强化学习任务,并将其表示为四元组,分别是状态集合、动作集合、状态转移函数和奖励函数,假设这四元中组中所有元素已知,且状态集合和动作集合在有限步数内是有限集,则机器学习可以对真实环境进行建模,通过学习状态转移函数来构建一个虚拟环境,以模拟真实环境的状态和交互和反映,这就是。然而在实际应用中,智能体并不是那么容易就能知晓马尔可夫决策过程中的所有元素的,通常情况下,状态转
强化学习的分类:
强化学习可以分为两大类:①有模型的强化学习;②无模型的强化学习
通常可以用马尔可夫决策过程来定义强化学习任务,并将其表示为四元组,分别是状态集合、动作集合、状态转移函数和奖励函数,假设这四元中组中所有元素已知,且状态集合和动作集合在有限步数内是有限集,则机器学习可以对真实环境进行建模,通过学习状态转移函数来构建一个虚拟环境,以模拟真实环境的状态和交互和反映,这就是有模型强化学习。然而在实际应用中,智能体并不是那么容易就能知晓马尔可夫决策过程中的所有元素的,通常情况下,状态转移函数和奖励函数很难估计,甚至连环境中的状态都可能是未知的,所以才有了无模型强化学习。
无模型强化学习又可以分为基于价值迭代和基于策略迭代两种方式。
基于价值迭代:
智能体不需要制定显示的策略,只需要维护一个价值表格或价值函数,并通过这个价值表格或价值函数来选取价值最大的动作。通常智能应用于离散的环境下,对于行为集合规模庞大、动作连续的场景,很难学习到较好的结果。
基于策略迭代:
能够通过分析所处的环境,直接输出下一步要采取的各种动作的概率,然后根据概率采取动作,所以每种动作都有可能被选中,只是可能性不同,这样便可以用来处理连续动作。这一类的智能体会制定一套动作策略,并根据这个策略进行操作,直接对策略进行优化,使定制的策略能够获得最大的奖励。
更多推荐
所有评论(0)