强化学习入口整理
强强化学习基础:强化学习分类,强化学习表示,值函数,策略迭代/值迭代, 主要的强化学习技术(蒙特卡洛学习/时间差分学习,DQN.REINFORCE,策略梯度/PPO/AC/A2C/A3C/DDPG/PDPG/TD3)马科夫过程(MP) -> 马尔科夫奖励过程(MRP) -> 马尔科夫决策过程(MDP)基于策略的迭代和基于价值的迭代(Model-based RL&动态规划)强化学习策略更新方法on-
强化学习基础
强强化学习基础:强化学习分类,强化学习表示,值函数,策略迭代/值迭代, 主要的强化学习技术(蒙特卡洛学习/时间差分学习,DQN.REINFORCE,策略梯度/PPO/AC/A2C/A3C/DDPG/PDPG/TD3)
马科夫过程(MP) -> 马尔科夫奖励过程(MRP) -> 马尔科夫决策过程(MDP)
基于策略的迭代和基于价值的迭代(Model-based RL&动态规划)
强化学习策略更新方法on-policy与off-policy(重要性采样,q-Learning,sarsa)
强化学习方法与路径
RL更新稀疏性&full rank------RLVR避开主权重,而SFT瞄准它们,The Path Not Taken: RLVR Provably Learns Off the Principal
策略梯度(PG)优化之TRPO/PPO–解决了哪些问题,怎么解决的
RLHF综述-GRPO之前
PPO—loss推导,四个模型各自特点和代码解读
DPO—仅策略模型&参考模型, 原理、流程与 Loss 解析
selected DPO —训练数据应匹配模型能力,过难的训练样本反而可能严重损害模型对齐性能
强化学习进化之路(PPO->ReMax&RLOO->DPO->KTO->ODPO->ORPO->simPO)
强化学习进化之路(GRPO->DAPO->Dr.GRPO->CISPO->GSPO)
GMPO:通过几何平均改善GRPO的稳定性
GFPO:组过滤策略优化减少GRPO响应长度膨胀
DCPO:让RLVR学会「动态裁剪」解决GRPO零优势零梯度和固定裁剪问题
2-GRPO:两个样本就足够,其实就是在做对比学习
ASPO::解决PPO-clip的正样本 token 权重错配问题与影响:Hard Clip,Soft Clip, Dual-Clip,Dual-Token Clip
BAPO:自适应裁剪如何实现LLM策略优化的动态平衡
SAPO:用平滑的衰减替代硬性的截断clip,用自适应的权重平衡探索与利用
Qwen提出LPPO框架,通过前缀引导采样PG-Sampling和学习进程加权LP-Weighting解决数据稀缺与训练效率瓶颈
强化学习之问题与解决
通用奖励模型:潜藏于大语言模型内部;LLM不再需要奖励模型?我们已经“预训练“了它!
强化学习之策略熵坍塌优化clip-conv
强化学习模型训练-关于token【低概率token, 高熵token】
RL 训练中的“训练-推理不匹配”难题:引擎差异、序列ort oken级奖励:重要性采样IS/切回 FP16精度/直接优化token奖励
MoE 模型的训练–推理差异:R2->R3->MiniRL
MoE 模型的训练–推理差异:Rollout Routing Replay(R3)
强化学习训练方法:超参设置技巧–Polaris的强化学习训练配方
强化学习方向
RLHF优化:AI 专家替代派/微调数据优化派/训练过程改造派(RAILF、LIMA、RFT/REFT/PPO/DPO等)
强化预训练RPT NPR
更多推荐
所有评论(0)