强化学习（分类类别）

通常可以用马尔可夫决策过程来定义强化学习任务，并将其表示为四元组，分别是状态集合、动作集合、状态转移函数和奖励函数，假设这四元中组中所有元素已知，且状态集合和动作集合在有限步数内是有限集，则机器学习可以对真实环境进行建模，通过学习状态转移函数来构建一个虚拟环境，以模拟真实环境的状态和交互和反映，这就是。然而在实际应用中，智能体并不是那么容易就能知晓马尔可夫决策过程中的所有元素的，通常情况下，状态转

sssjjww

697人浏览 · 2024-01-30 10:17:01

sssjjww · 2024-01-30 10:17:01 发布

强化学习的分类：

强化学习可以分为两大类：①有模型的强化学习；②无模型的强化学习

通常可以用马尔可夫决策过程来定义强化学习任务，并将其表示为四元组，分别是状态集合、动作集合、状态转移函数和奖励函数，假设这四元中组中所有元素已知，且状态集合和动作集合在有限步数内是有限集，则机器学习可以对真实环境进行建模，通过学习状态转移函数来构建一个虚拟环境，以模拟真实环境的状态和交互和反映，这就是有模型强化学习。然而在实际应用中，智能体并不是那么容易就能知晓马尔可夫决策过程中的所有元素的，通常情况下，状态转移函数和奖励函数很难估计，甚至连环境中的状态都可能是未知的，所以才有了无模型强化学习。

无模型强化学习又可以分为基于价值迭代和基于策略迭代两种方式。

基于价值迭代：

智能体不需要制定显示的策略，只需要维护一个价值表格或价值函数，并通过这个价值表格或价值函数来选取价值最大的动作。通常智能应用于离散的环境下，对于行为集合规模庞大、动作连续的场景，很难学习到较好的结果。

基于策略迭代：

能够通过分析所处的环境，直接输出下一步要采取的各种动作的概率，然后根据概率采取动作，所以每种动作都有可能被选中，只是可能性不同，这样便可以用来处理连续动作。这一类的智能体会制定一套动作策略，并根据这个策略进行操作，直接对策略进行优化，使定制的策略能够获得最大的奖励。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

自动化提示词生成工具盘点

腾讯云开发者社区

AI PPT免费使用技巧盘点：如何快速制作专业PPT？

腾讯云开发者社区

腾讯云架构师技术沙龙 · 长沙站圆满落幕，共话AI驱动下的技术架构与前沿应用

人工智能已成为推动技术创新与产业变革的重要引擎，开发者正身处一场前所未有的技术变革之中。通过本次腾讯云架构师技术沙龙，各位专家深入分享前沿技术洞察，探讨 AI 落地的应用路径与实践经验，为架构师的职业发展指明方向。腾讯云架构师长沙同盟和腾讯云架构师技术同盟长沙地区理事会正式成立。未来，腾讯云架构师长沙同盟将凝心聚力，打造属于本地架构师的学习与成长的家园，助力中国架构的蓬勃发展。未来已来，让我们携手