一 概述与核心思想

  • 定义与定位:将大语言模型(LLM)置于动态环境中,视作可学习的策略(policy),通过强化学习(RL)获得长期、自主的感知—规划—行动—反思能力,目标从“生成更好的答案”转向“学会如何行动以实现目标”。

  • 形式化基础:采用POMDP(部分可观测马尔可夫决策过程)视角,统一描述多轮交互、不确定观测与长期信用分配问题。

  • 与传统 PBRFT 的差异

    • 传统偏好型强化微调(PBRFT/RLHF/DPO)多为退化 MDP、回合 Horizon T=1,仅对单步输出打分;

    • Agentic RL 具备长时域(T>1)部分可观测动作空间含文本与环境操作稀疏+稠密奖励累计折扣目标

  • 代表性进展OpenAI o1/o3、DeepSeek-R1等通过 RL 显著提升推理工具使用能力,推动 LLM 由“对话者”迈向“行动者”。

二 范式对比与形式化

  • 关键维度对比

维度

传统 PBRFT(对齐时代)

Agentic RL(智能体时代)

状态 State

单一提示词 s0

随时间演化的世界状态 s_t(部分可观测)

观察 Observation

等于状态

观测 o_t=O(s_t),仅见局部

动作 Action

仅文本生成 A_text

文本+环境操作 A_text ∪ A_action

转移 Transition

回合即终,无转移

按 P(s_{t+1}

奖励 Reward

单步/单轮标量 r(a)

步骤级(过程)+任务级(结果)组合

目标 Objective

最大化单步期望奖励

最大化折扣累计奖励J= E[∑ γ^t R(s_t,a_t)]

  • POMDP 元组视角:Agentic RL 通常形式化为⟨S, O, A, P, R, γ⟩(或扩展为含 T 的七元组),以支持长时序信用分配不确定环境下的稳健决策。

三 六大核心能力与 RL 训练要点

  • 规划(Planning):在不确定环境中拆解多步子目标动态重规划;RL 可将“内部搜索/推理”与“外部试错”统一到同一优化目标下。

  • 工具使用(Tool Use):从“模仿式调用(ReAct/Toolformer)”进化为“策略内生的择机调用”,学会何时/哪个/如何调用搜索、代码执行、API 等,并通过结果反馈改进策略。

  • 记忆(Memory):超越固定上下文,学习写入/检索/遗忘的策略;结合外部记忆检索增强(RAG),由 RL 决定“记忆什么最有用”。

  • 推理(Reasoning):通过过程奖励可验证奖励引导链式推理(CoT)、慢思考与一致性;在数学/代码等任务中显著提升可靠性可解释性

  • 自我改进(Self-Improvement):将“反思—修正—再训练”闭环内化,如Reflexion类方法与在线/离线微调结合,持续提升策略鲁棒性。

  • 感知(Perception):在视觉/音频/视频/多模态场景中,将感知与语言推理对齐,支持主动感知跨模态定位/推理

四 任务全景与典型应用

  • 信息检索与研究智能体:多轮检索-阅读-整合,自动撰写报告;在开放域问答与科研助理中表现突出。

  • 代码与软件工程智能体:从单文件走向多文件/仓库级修改,结合编译/测试/运行结果进行 RL 优化(如面向 SWE-bench的方法)。

  • 数学与逻辑推理:覆盖非形式化(含执行验证)与形式化(证明器验证)双轨,利用可验证奖励提升严谨性与可解释性。

  • GUI 与桌面/移动操作:在真实或仿真 GUI中完成点击、表单、流程作业,结合视觉与结构化动作空间。

  • 视觉与多模态智能体:将定位/grounding与推理耦合,支持图像/视频/3D 场景下的复杂任务。

  • 具身智能体(Embodied):在导航/操控等虚拟或物理环境中执行长时域策略。

  • 多智能体系统(MAS):多个 LLM 智能体分工协作/博弈,通过 RL 优化通信、协调与联合策略

五 生态、环境与框架

  • 开放环境与基准

    • Web/检索:WebShop、Mind2Web、WebArena

    • GUI/操作系统:AndroidWorld、OSWorld

    • 代码/软件工程:SWE-bench、Debug-Gym、TheAgentCompany

    • 通用/领域:AgentGym、Agent-bench、InternBootcamp等,覆盖搜索、推理、工具使用、交互操作等多维任务。

  • 训练与微框架

    • Agentic RL/智能体专用:SkyRL、AREAL、AgentFly(面向长时域与分布式执行)

    • RLHF/对齐与微调:OpenRLHF、TRL、trlX、SLiMe

    • 通用 RL:RLlib、Acme、Tianshou、Stable-Baselines3

      这些工具为策略优化、分布式训练、课程/奖励设计可验证评估提供基础设施。

六 挑战与前沿方向

  • 可信性与安全:应对奖励黑客、幻觉、附和等风险,结合可验证奖励、过程监督、对抗训练、沙盒隔离、AI 反馈等多重防御。

  • 训练扩展性:在计算/模型/数据三维权衡下提升样本效率稳定性,避免能力退化与熵坍缩,探索混合专家、课程学习异步分布式 RL

  • 环境扩展性:建设更贴近真实的交互环境与自动化课程/奖励设计,让环境与智能体共同进化,形成可持续的能力飞轮

  • 研究前沿长时域信用分配规划-工具-记忆一体化、多模态具身多智能体协同人类在环(HITL)的评测与治理体系。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐