1. 简介

TPO算法虽然应用起来效果很好,但是计算量很大。PPO算法对TPO算法的求解进行了优化,简化了求解方法,使用局部最优解代替全局最优解。

2. PPO方法的两种形式

(1)PPO-惩罚

使用拉格朗日系数放找到局部最优解,拉格朗日系数法可以将约束放在优化目标中,从而只求解优化目标即可

(2)PPO-截断

PPO截断则是人为定义新旧策略的差值的最大最小值

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐