机器学习与深度学习系列连载：第三部分强化学习（十二) 深度强化学习- Q learning进阶： Double DQN和 Dulling DQN

Q learning进阶： Double DQN和 Dulling DQN

人工智能插班生

1013人浏览 · 2018-12-06 10:02:22

人工智能插班生 · 2018-12-06 10:02:22 发布

Q learning进阶：Double DQN和 Dueling DQN

1. Double DQN

DQN中很容易对Q-value的值过度估计。因为会倾向于选择表现好的当前action，往往这个action是过高估计的。

在这里插入图片描述

在这里插入图片描述

Double DQN中有两个Q函数，Q和Q’(Target network)
在这里插入图片描述
如果Q被过高估计，Q’很有可能不对它有过高估计，给予适当的值。

如果Q’被过高估计，Q也不会按照Q’选择action，两者相互有制约。

Double DQN很好的解决了对于Q值过高估计的问题，实验中，蓝色曲线是Double DQN的Q的值，与实际值更加接近。
在这里插入图片描述

2. Dueling DQN

一般的，Q-learning 的输出是Q值，但是Q值一直很不稳定，那么，如果把Q值拆开（里面有不稳定的部分和稳定的部分），是不对结果更加好呢？我们只改变一点网络架构：
在这里插入图片描述

V(s)的细小改变，会改变整个Q的结果。

在这里插入图片描述

3. “经历的重点”：Prioritized Reply

典型的Q-learning中，有experience buffer的模块，可以针对以前的经历进行离线学习。

但是经历非常多，有没有重点呢？所有的记忆都是有用的吗？Prioritized Reply就是为我们解决这个问题。提升训练的质量。
较大的TD error的经历，很sample到的概率会相对比较高。

在这里插入图片描述

4. 平衡MC和TD：Multi-step

我们的思路是把一步的经历，做成多步的经历。
在这里插入图片描述

5. Noisy Net

Noisy Net 的概念几乎同时被openAI和Deepmind提出：

我们在action中加入noisy，其实就是 Epsilon Greedy（随机乱试）
我们在Parameters中加入noisy（有系统的试）

在这里插入图片描述

通过noise net 小狗更快的学会跑步
效果：from https://blog.openai.com/better-exploration-with-parameter-noise/
在这里插入图片描述

6. Q-函数的分布

在这里插入图片描述
我们以游戏控制为例：

7. Rainbow

rainbow 是Q-learning中的集大成者，论文地址是：https://arxiv.org/abs/1710.02298

在这里插入图片描述

8. Q-learning在连续动作中的应用

当 Action ? 是一个连续的向量
在这里插入图片描述
Solution 1：
从action中抽样出一个action集合，然后在里面选择Q值最大的

Solution 2：
使用梯度上升解决求Q值最大的问题

Solution 3 ：设计一个网络，让求最大值的问题简单化

在这里插入图片描述

Solution 4 不要使用 Q-learning
在这里插入图片描述

本专栏图片、公式很多来自David Silver主讲的UCL-Course强化学习视频公开课和台湾大学李宏毅老师的深度强化学习课程,在这里，感谢这些经典课程，向他们致敬！

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git

腾讯云开发者社区

所有评论(0)

查看更多评论

人工智能插班生

已为社区贡献9条内容