强化学习和生成对抗网络
强化学习(reinforcement learning)是机器学习的一个重要分支,是一门多领域交叉学科,它的本质是自行解决决策问题,并且能进行连续决策。强化学习有四个主要组成部分∶1.代理(Agent)reward action state2.环境(Environment)3.行动(Action Environment)4.奖励(Reward)简而言之,强化学习是一个让代理在环境中不断尝试各种行动
1. 强化学习的定义
强化学习(reinforcement learning)是机器学习的一个重要分支,是一门多领域交叉学科,它的本质是自行解决决策问题,并且能进行连续决策。
强化学习有四个主要组成部分∶
1.代理(Agent)reward action state
2.环境(Environment)
3.行动(Action Environment)
4.奖励(Reward)
简而言之,强化学习是一个让代理在环境中不断尝试各种行动,并能通过奖励来影响行动模式,使得奖励最优化(或者趋近于最优)的一种算法。
2. 两种学习任务
两种学习RL的方式
Value Based
写出一个value function,这个value function可以告诉我们每一步的未来rewards会有多大
3. Policy Based
在这里,我们希望最优化一个policy function而不是一个value function
有两种policy可以选择∶
Deterministic∶相同state下,永远给出相同的action,简单来说就是每次在同样的情况下做出一样的选择
Stochastic∶给出一个所有action的可能性的distribution,意思是在选择具有随机性,在某些对抗性游戏中,随机决策是必须的
4. 生成模型
5. 生成模型大家族
6. DCGAN
更多推荐
所有评论(0)