【AlphaHoldem】端到端强化学习玩德州扑克

强化学习端到端玩德州扑克。

小小何先生

3496人浏览 · 2022-09-14 23:21:16

小小何先生 · 2022-09-14 23:21:16 发布

文章目录

所解决的问题？

Heads-up no-limit Texas hold’em (HUNL)：8卡64核跑无限注德州扑克达到人类水平。有点类似DouZero单机上达到人类水平。

背景

HUNL初始时，两名玩家会发两张盖牌。之后还有、翻牌、转牌、河牌、比牌。翻牌是三张，转牌一张，河牌一张。需要评估能够组成的5张牌中最大的。

动作空间有：过牌(check)，跟注(call)，加注(raise)，弃牌(fold)。

五张牌的大小比较有：

DeepStack、Libratus都是做完abstract之后再接CFR类算法，但是CFR这类偏遍历的方式算起来计算资源的开销太大了。但是AlphaHoldem只在8卡的GPU上64个CPU核上训练了三天。

所采用的方法？

作者设计了一个伪孪生网络的结构(pseudo-Siamese)，直接从输入学习输出的动作分布。除此之外，作者在状态表征、训练的loss、模型策略方面也都做了改进。

整体的网络结构如上图所示：输入是动作信息和卡牌信息的状态表征。送入到顶部和底部的孪生网络结构中。作者期望两个卷积网络能够学习不同的信息表征。由此还提出了一种新的loss函数Trinal-Clip Loss。self-play的时候也是选取的历史最佳的k个。整体设计就是这样，具体细节可以归功于三个方面：状态表征、Loss设计、Self-Play的模型选择。

高效的状态表征

card的信息就是六个通道，2张底牌、3张公共牌、1张转牌、1张河牌。每个通道是4x13的矩阵，1表示有这张牌（这里是考虑了花色的）。

对于动作信息，每个通道是 $\times n_{b}$ 的矩阵，4分别表示玩家1的动作、玩家2的动作、两家动作之和、合法动作。总共最多会有4次下注，每次下注最多会有6个下注动作。所以总共是 $24 \times 4 \times n_{b}$ 种情况。

Trinal-Clip损失函数

从replay buffer中采样数据更新，算法采用PPO更新公式，ratio为: $r_t(\theta)=\frac{\pi_\theta\left(a_t \mid s_t\right)}{\pi_{\theta^{\prime}}\left(a_t \mid s_t\right)}$ ，其中 $\theta$ 为新策略， $\theta^{\prime}$ 为旧策略。

$\mathcal{L}^p(\theta)=\mathbb{E}_t\left[\min \left(r_t(\theta) \hat{A}_t, \operatorname{clip}\left(r_t(\theta), 1-\epsilon, 1+\epsilon\right) \hat{A}_t\right)\right]$

其中 $\epsilon=0.2$ 。作者在采用上述PPO原loss的情况下，很难收敛。作者给出了两点主要的原因：

当 $\pi_\theta\left(a_t \mid s_t\right) \gg \pi_{\theta_{o l d}}\left(a_t \mid s_t\right)$ ，和 $\hat{A}_t<0$ 的时候，会导致policy loss的方差比较大。
由于对手的不确定性，会导致value的loss比较大。

作者设计了Trinal-Clip Loss，对于policy部分，当 $\hat{A}_t<0$ 的时候，对下界也需要限制一下：

$\mathcal{L}^{t c p}(\theta)=\mathbb{E}_t\left[\operatorname{clip}\left(r_t(\theta), \operatorname{clip}\left(r_t(\theta), 1-\epsilon, 1+\epsilon\right), \delta_1\right) \hat{A}_t\right]$

其中 $\delta_1 > 1+\epsilon$ ，作者这里设置的是3。对于value loss的clip设计为：

$\mathcal{L}^{t c v}(\theta)=\mathbb{E}_t\left[\left(\operatorname{clip}\left(R_t^\gamma,-\delta_2, \delta_3\right)-V_\theta\left(s_t\right)\right)^2\right]$

参数 $\delta_2$ 和参数 $\delta_3$ 是我方玩家的下注和对方玩家的下注。这两个参数是动态生成的，就是为了减少value的方差。

这三种loss的效果对比如下：

有效的模型选择和生成

简单的自博弈算法容易陷入循环克制的问题中，不容易收敛。AlphaStar的群体博弈(PBT)，神经虚拟自博弈(NFSP)需要的资源开销比CFR的开销还要大。

AlphaHoldem采用了一种新型的Best-K自博弈方法。该方法通过在训练过程中测试历史模型的性能，挑选出K个最好的模型与现在最新的模型对打，不断通过强化学习提升自身性能。

总共8.6milion的参数，1.8milion的卷积参数，6.8milion的全连接参数。

取得的效果？

所出版信息？作者信息？

一作是中科院博士生赵恩民，导师兴军亮。论文是AAAI的卓越论文。

参考链接

https://www.ithome.com/0/605/124.htm

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

自动化提示词生成工具盘点

腾讯云开发者社区

腾讯云架构师技术沙龙 · 长沙站圆满落幕，共话AI驱动下的技术架构与前沿应用

人工智能已成为推动技术创新与产业变革的重要引擎，开发者正身处一场前所未有的技术变革之中。通过本次腾讯云架构师技术沙龙，各位专家深入分享前沿技术洞察，探讨 AI 落地的应用路径与实践经验，为架构师的职业发展指明方向。腾讯云架构师长沙同盟和腾讯云架构师技术同盟长沙地区理事会正式成立。未来，腾讯云架构师长沙同盟将凝心聚力，打造属于本地架构师的学习与成长的家园，助力中国架构的蓬勃发展。未来已来，让我们携手

腾讯云开发者社区

通用Agent都快被骂废了，MiniMax突然搞了个能打的

效果也比我预计中要好很多，是一个比较标准的产品展示页，或者博客类型的页面，顶端栏划分了不同的信息，顶端和底部都保留了大量跟Hailuo 02的相关项，每一个页面都能交互，包含的信息量非常大，几乎完美的匹配了我的需求，你看到提示语中我说到的东西几乎都实现了。直接把生成的结果和我给的提示语对照一下，可以看到我给出的要求基本都做出来了，每一屏需要的景色背景图、数据表、地图、语音播放全都完成，编程考了，多