强化学习入口整理

强强化学习基础：强化学习分类，强化学习表示，值函数，策略迭代/值迭代, 主要的强化学习技术(蒙特卡洛学习/时间差分学习,DQN.REINFORCE,策略梯度/PPO/AC/A2C/A3C/DDPG/PDPG/TD3)马科夫过程（MP) -＞马尔科夫奖励过程（MRP） -＞马尔科夫决策过程（MDP）基于策略的迭代和基于价值的迭代（Model-based RL&动态规划）强化学习策略更新方法on-

zhurui_xiaozhuzaizai

7602人浏览 · 2025-08-14 13:46:02

zhurui_xiaozhuzaizai · 2025-08-14 13:46:02 发布

强化学习基础

强强化学习基础：强化学习分类，强化学习表示，值函数，策略迭代/值迭代, 主要的强化学习技术(蒙特卡洛学习/时间差分学习,DQN.REINFORCE,策略梯度/PPO/AC/A2C/A3C/DDPG/PDPG/TD3)
马科夫过程（MP) -＞马尔科夫奖励过程（MRP） -＞马尔科夫决策过程（MDP）
基于策略的迭代和基于价值的迭代（Model-based RL&动态规划）
强化学习策略更新方法on-policy与off-policy(重要性采样，q-Learning，sarsa)

强化学习方法与路径

RL更新稀疏性&full rank------RLVR避开主权重，而SFT瞄准它们，The Path Not Taken: RLVR Provably Learns Off the Principal

策略梯度（PG）优化之TRPO/PPO–解决了哪些问题，怎么解决的
 RLHF综述-GRPO之前
 PPO—loss推导，四个模型各自特点和代码解读
 DPO—仅策略模型&参考模型, 原理、流程与 Loss 解析
 selected DPO —训练数据应匹配模型能力,过难的训练样本反而可能严重损害模型对齐性能
 强化学习进化之路(PPO-＞ReMax&RLOO-＞DPO-＞KTO-＞ODPO-＞ORPO-＞simPO)
强化学习进化之路(GRPO-＞DAPO-＞Dr.GRPO-＞CISPO-＞GSPO)
GMPO：通过几何平均改善GRPO的稳定性
 GFPO:组过滤策略优化减少GRPO响应长度膨胀
 DCPO：让RLVR学会「动态裁剪」解决GRPO零优势零梯度和固定裁剪问题
 2-GRPO:两个样本就足够，其实就是在做对比学习
 ASPO::解决PPO-clip的正样本 token 权重错配问题与影响:Hard Clip，Soft Clip， Dual-Clip，Dual-Token Clip
BAPO：自适应裁剪如何实现LLM策略优化的动态平衡
 SAPO：用平滑的衰减替代硬性的截断clip，用自适应的权重平衡探索与利用
 Qwen提出LPPO框架，通过前缀引导采样PG-Sampling和学习进程加权LP-Weighting解决数据稀缺与训练效率瓶颈

强化学习之问题与解决

GRPO训练的时候，会产生大量重复内容，如何调参改进

通用奖励模型：潜藏于大语言模型内部；LLM不再需要奖励模型？我们已经“预训练“了它！

强化学习之策略熵坍塌优化clip-conv
强化学习模型训练-关于token【低概率token, 高熵token】

RL 训练中的“训练-推理不匹配”难题:引擎差异、序列ort oken级奖励：重要性采样IS/切回 FP16精度/直接优化token奖励

MoE 模型的训练–推理差异:R2-＞R3-＞MiniRL
MoE 模型的训练–推理差异:Rollout Routing Replay（R3）

强化学习训练方法：超参设置技巧–Polaris的强化学习训练配方

RL 参数技巧汇总–loss,token等

强化学习方向

RLHF优化：AI 专家替代派/微调数据优化派/训练过程改造派(RAILF、LIMA、RFT/REFT/PPO/DPO等)
强化预训练RPT NPR

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git