【强化学习】PPO算法
TPO算法虽然应用起来效果很好,但是计算量很大。PPO算法对TPO算法的求解进行了优化,简化了求解方法,使用局部最优解代替全局最优解。
·
1. 简介
TPO算法虽然应用起来效果很好,但是计算量很大。PPO算法对TPO算法的求解进行了优化,简化了求解方法,使用局部最优解代替全局最优解。
2. PPO方法的两种形式
(1)PPO-惩罚
使用拉格朗日系数放找到局部最优解,拉格朗日系数法可以将约束放在优化目标中,从而只求解优化目标即可

(2)PPO-截断
PPO截断则是人为定义新旧策略的差值的最大最小值

更多推荐
所有评论(0)