强化学习调参经验

疯狂的布布

363人浏览 · 2026-01-16 15:08:14

疯狂的布布 · 2026-01-16 15:08:14 发布

1.强化学习什么都学不到？

遇到这个问题，首先要确定是否是真的什么都学不到，还是训练不够，看似少量训练什么都学不到。因此进行强化学习过程中，我们最好是使用多环境，多线程同时训练。因为强化学习仿真环境多为cpu运行，因此我们的仿真环境可以是多核环境。

运行的环境数量为 cpu数量。多环境运行，效率拉满，以我本机为例。开了24个进程同时进行数据采集。这么一个方式大大提高了运行效率。

很多小白运行强化学习过程中，可能看到学了几天发现算法不收敛，以为是不work，但可能是因为训练不够，算力不够导致。所以建议强化学习尽量把性能拉满试验。

2.强化学习batch_size和n_steps的关系？

n_steps表示采集的经验数量，如果环境是24，同时采集，那么储存的经验相当于单环境的24倍，就如同鸣人的影分身一样，经验谁着分身数增多，而增大采集。经验池大小：512*24，是batch_size：2048的6倍作用，batch_size增大有利于学习稳定性。

以PPO算法为例：

PPO_PARAMS = {

"n_steps": 512,

"ent_coef": 0.05,

"learning_rate": 0.00025,

"n_epochs":8,#8, # 每个更新周期遍历 10 次

"batch_size": 2048,

"gamma" : 0.95,

"gae_lambda" : 0.95,#0.7,#0.9,

"clip_range" : 0.2

}

3.在面对序列数据的时候，到底是mlp更容易过拟合还是lstm更容易过拟合？

在提取序列数据方面，mlp方面更容易过拟合，因为mlp方面它比较难找出序列先后之间的关系，那么mlp在找不到相关关系，但又想要提高强化学习奖励，往往采用的措施就是把他们通通都记住。所以mlp在处理序列方面比lstm容易过拟合。这也是导致强化学习为什么泛化能力差的主要原因。

4.强化学习泛化能力差？

训练集表现很好，验证集表现很差，这是典型的过拟合。过拟合解决方案1.正则化，2.dropout。但是这两个方法往往效果都不佳。

过拟合解决能力：正则化效果>dropout

强化学习一般不使用dropout。因为加入dropout后效果一般难以收敛，因为不稳定。即使稳定了效果也很一般。

正则化视情况而定，如果效果不好，则不要继续使用。

正则化滥用有可能导致欠拟合。我们可以通过监测价值函数的梯度去查看是否是产生了欠拟合。如果价值函数输出都是同一个值且方差为0，说明欠拟合。以下是我打印的价值网络梯度，这是比较好的梯度情况。我没有使用正则化和dropout。所以你会发现有很多分散的小山丘，说明网络有很多神经元都有相应的梯度更新。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git