西湖大学最新！ARFM：结合VLA模仿学习与强化学习的优势

以原始 VLA 流模型的动作分布pAt∣otp(A_t|o_t)pAt∣ot为基础（其中Atatat1atHAtatat1...atH，对应未来连续动作序列；otI1tIntℓtqtotI1t...Intℓtqt为多模态观测，包含n幅 RGB 图像IitI_i^tIit、语言指令 token 序列ℓt\ell^tℓt、机器人关节角度。

Tom Hardy

705人浏览 · 2026-01-17 10:00:48

Tom Hardy · 2026-01-17 10:00:48 发布

如今，基于流匹配的视觉-语言-动作（VLA）模型已经能帮机器人完成不少操控任务了，像 $\pi_0$ 这类模型，凭借轨迹级建模能力在常规场景里表现还不错，就连 RT-1、PaLM-E 这些大规模预训练模型，也证明了从多模态数据里学通用策略是可行的。

可一碰到复杂的下游任务，比如要在动态干扰下精准抓东西，这些模型就有点 “力不从心” 了——动作精度掉得厉害。说到底，问题出在它们 “学东西的方式” 上：现在的 VLA 流模型全靠模仿学习做后训练，就像只会照搬别人动作，没法分清哪些训练数据质量更好、哪些策略更适合当前任务。而强化学习（RL）本来就擅长挖掘这些数据质量特性，可之前的离线 RL 方法，比如 ReinboT，在 VLA 流模型上效果并不好，因为这类模型是靠向量场建模整个动作轨迹的，ReinboT 只能间接指导动作生成，效率太低。

那怎么让 VLA 流模型既保留流匹配的轨迹建模优势，又能用好强化学习的能力呢？西湖大学团队提出的 “自适应强化流匹配（ARFM）” 方法就是来解决这个问题的。它通过在模型损失函数里加一个能自动调整的 “缩放因子”，一边让强化学习的优势信号充分发挥作用，重点关注高质量数据，一边控制梯度方差避免训练崩溃，让模型微调又稳又高效。后续的大量实验也证明，ARFM 在泛化、抗干扰、少样本学习这些方面都有明显提升，为机器人应对复杂任务提供了新思路。

论文题目：Balancing Signal and Variance: Adaptive Offline RL Post-Training for VLA Flow Models

论文链接：https://arxiv.org/pdf/2509.04063

作者单位：西湖大学；加利福尼亚大学洛杉矶分校；西安交通大学

原文链接：西湖大学最新！ARFM：结合VLA模仿学习与强化学习的优势

研究背景与问题

VLA 模型现状：基于流匹配的 VLA 模型（如 $\pi_0$ ）在通用机器人操控任务表现出色，且大规模预训练系统（如 RT-1、RT-2、PaLM-E 等）已验证从多模态数据学习通用策略的可行性，但这类模型依赖模仿学习后训练范式，难以深入理解数据质量分布特性，在复杂下游任务中动作精度欠佳。

现有解决方案局限：部分研究尝试用离线 RL（如 ReinboT、RWR）微调 VLA 模型，其中 ReinboT 引入 RL 未来回报指导微调，但在 VLA 流模型中性能有限 —— 因 VLA 流模型通过向量场建模整个动作轨迹分布，推理阶段最大化未来回报仅能间接、低效地指导动作预测，如何有效对 VLA 流模型进行离线 RL 微调仍待探索。

主要贡献

方法创新：提出自适应强化流匹配（ARFM）这一新型离线强化学习（RL）后训练方法，专门用于视觉 - 语言 - 动作（VLA）流模型，可通过自适应调整数据质量分布，解决现有 VLA 流模型依赖模仿学习后训练、难以挖掘数据质量特性的问题，填补了 VLA 流模型高效离线 RL 微调的技术空白。

理论构建：从理论上确立自适应调整缩放因子的优化目标，通过引入该缩放因子构建具有严谨依据的偏差 - 方差权衡目标函数，同时推导得出实时更新缩放因子的二分迭代算法，实现对 RL 信号强度与流损失梯度方差的精准控制，为 VLA 流模型高效微调提供坚实理论支撑。

实验验证：在 LIBERO 仿真基准（含 Object、Long、Spatial、Goal 四大任务套件）与 UR5 真实机械臂平台开展大量实验，验证 ARFM 在泛化能力、动态扰动鲁棒性、少样本学习及持续学习方面均展现出当前最优性能，且超参数敏感性低、工程落地成本低，充分证明其在实际机器人操控场景中的应用价值。

核心算法设计

文章所提出的ARFM作为面向 VLA 流模型的自适应离线 RL 后训练方法，核心围绕 “构建能量加权损失以融合 RL 信号” 与 “设计自适应机制以平衡训练稳定性” 展开，通过理论推导与算法实现，解决传统模仿学习及现有离线 RL 微调在 VLA 流模型中的局限，具体设计可拆解为三部分：能量加权 VLA 流模型构建、缩放因子 $\alpha$ 的自适应优化、完整微调算法流程，各环节紧密衔接且具备理论支撑。

图1｜所提出的ARFM整体框架。

能量加权 VLA 流模型：融合 RL 信号的核心载体

该模块旨在将 RL 优势信号嵌入 VLA 流模型的训练目标，通过能量引导分布重塑动作轨迹的学习偏好，让模型更关注高质量（高 RL 优势）的数据样本，同时沿用流匹配模型对轨迹建模的优势，具体包含分布定义、损失函数设计与实际计算优化三方面。

能量引导的动作分布定义

以原始 VLA 流模型的动作分布 $p(A_t|o_t)$ 为基础（其中 $A_t = [a_t, a_{t+1}, ..., a_{t+H}]$ ，对应未来连续动作序列； $o_t = [I_1^t, ..., I_n^t, \ell^t, q^t]$ 为多模态观测，包含n幅 RGB 图像 $I_i^t$ 、语言指令 token 序列 $\ell^t$ 、机器人关节角度 $q^t$ ），引入 RL 未来回报优势 $R^*(o_t, A_t)$ （通过 “留一法” 标准化得到，无偏且低方差），构建能量引导的目标分布： $\pi(A_t|o_t) \propto p(A_t|o_t) \exp(\alpha R^*(o_t, A_t))$ 。其中 $\alpha$ 为缩放因子，是控制 RL 信号强度的核心参数。具体来讲， $\exp(\alpha R^*)$ 项通过能量函数形式，对高 $R^*$ （即 RL 优势更强）的动作样本赋予更高权重，使模型在训练中更倾向于学习这类高质量动作的轨迹分布。

条件能量加权流匹配（CEFM）损失设计

为学习上述能量引导分布 $\pi(A_t|o_t)$ 的向量场（VLA 流模型的核心是通过向量场建模轨迹生成过程），基于能量加权流匹配（EWFM）理论，推导得到条件能量加权流匹配（CEFM）损失，具体形式为： $\mathcal{L}^\tau(\theta) = \mathbb{E}\left[ \mathcal{E}^*(A_t, o_t) \left\| v_\theta(A_t^\tau, o_t) - u(A_t^\tau|A_t) \right\|^2 \right]$

损失构成解析：

$\mathcal{E}^*(A_t, o_t)$ ：能量权重项，用于将 RL 优势信号融入损失，计算式为 $\mathcal{E}^*(A_t, o_t) = \frac{\exp(\alpha R^*(A_t, o_t))}{\mathbb{E}_{A_t^* \sim p(\cdot|o_t)} \exp(\alpha R^*(A_t^*, o_t))}$ ，通过对 $\exp(\alpha R^*)$ 做归一化，避免因样本间 $R^*$ 差异过大导致权重失衡，且分母为批次内所有样本的能量均值，保证权重在合理范围。
$v_\theta(A_t^\tau, o_t)$ ：模型预测的向量场， $\theta$ 为 VLA 流模型（如 $\pi_0$ ）的可学习参数，输入为 “带噪声动作” $A_t^\tau$ 与观测 $o_t$ 。
$u(A_t^\tau|A_t)$ ：真实去噪向量场，是流匹配模型的核心监督信号，由动作样本 $A_t$ 与噪声计算得到，具体形式为 $u(A_t^\tau|A_t) = \epsilon - A_t$ （ $\epsilon$ 为高斯噪声）。
$A_t^\tau$ ：带噪声动作，生成方式为 $A_t^\tau = \tau A_t + (1-\tau) \epsilon$ （ $\tau \sim \text{Uniform}(0,1)$ 为随机时间步， $\epsilon \sim \mathcal{N}(0,I)$ 为标准高斯噪声），模拟流匹配模型 “从噪声中逐步恢复真实动作轨迹” 的学习过程，确保模型能学习到轨迹的全局分布特性。

实际训练中的损失近似计算

理论上的 CEFM 损失需计算全局期望 $\mathbb{E}$ ，但实际训练中难以直接求解，因此采用批次采样近似策略，将损失转化为可高效计算的批次加权损失，具体形式为： $\mathcal{L}_1^\tau(\theta) = \sum_{i=1}^B w_i(\alpha) \left\| v_\theta(\{A_t^i\}^\tau, o_t) - u(\{A_t^i\}^\tau|A_t^i) \right\|^2$

关键调整：

批次采样：每步训练采样B个数据对 $o_t, A_t)$ （B为批次大小），用批次内样本替代全局样本计算损失。
权重简化： $w_i(\alpha) = \frac{\exp(\alpha R^*(A_t^i, o_t))}{\sum_{j=1}^B \exp(\alpha R^*(A_t^j, o_t))}$ ，即批次内归一化的能量权重，替代理论中的全局期望，降低计算复杂度。
标准化处理：对 $R^*$ 按 VLA 多任务场景的 “任务类型” 进行标准化，确保不同任务（如抓取、放置）的 $R^*$ 具有可比性，避免因任务间回报尺度差异导致权重偏向某类任务。

缩放因子 $\alpha$ 的自适应优化：平衡信号与稳定性的关键

缩放因子 $\alpha$ 直接决定 RL 信号的影响力与训练稳定性。 $\alpha$ 过小则 RL 优势信号无法有效体现，微调效果接近传统流匹配； $\alpha$ 过大则高能量样本权重过高，导致损失梯度方差激增，引发梯度爆炸或训练崩溃。为此，ARFM 通过理论构建优化目标与高效求解算法，实现 $\alpha$ 的实时自适应调整。

$\alpha$ 的优化目标函数构建

核心思路是 “最小化梯度方差以保证训练稳定” 与 “最大化 RL 优势信号以提升模型性能” 的权衡，基于此构建目标函数 $J(\alpha)$ ： $J(\alpha) = \text{Var}(\hat{g}(\alpha)) - \lambda S(\alpha)$ 。

目标函数各部分解析：

$\text{Var}(\hat{g}(\alpha))$ ：损失梯度的方差， $\hat{g}(\alpha) = \nabla_\theta \mathcal{L}_1^\tau(\theta) = \sum_{i=1}^B \hat{w}_i(\alpha) \nabla_\theta \left\| v_\theta(\{A_t^i\}^\tau, o_t) - u(\{A_t^i\}^\tau|A_t^i) \right\|^2$ ，代表训练过程的稳定性。方差越小，梯度更新越平稳，避免训练崩溃。
$S(\alpha)$ ：RL 优势得分函数，计算式为 $S(\alpha) = \frac{\sum_{i=1}^B \hat{w}_i(\alpha) R^*(A_t^i, o_t)}{\sum_{i=1}^B \hat{w}_i(\alpha)}$ （其中 $\hat{w}_i(\alpha) = \exp(\alpha R^*(A_t^i, o_t))$ ），代表 RL 信号的有效利用程度。 $S(\alpha)$ 越大，模型对高 RL 优势样本的关注程度越高，越能利用 RL 信号提升性能。
$\lambda$ ：超参数，用于调整 “梯度方差控制” 与 “RL 信号保留” 的相对比重，默认取值为 $5.0 e - 4$ （参考文章附录表7），实验验证 $\lambda$ 对 ARFM 性能影响较小，因方法自身具备自适应平衡能力。

基于高斯假设的目标函数简化与求解

为使 $J(\alpha)$ 可求解，引入三个温和且合理的假设（基于 VLA 流模型后训练的特性）：

假设 1：标准化后的 RL 优势信号 $R^*(A_t, o_t)$ 服从高斯分布 $\mathcal{N}(0, \sigma_R^2)$ （ $\sigma_R^2$ 为 $R^*$ 的方差）——因 $R^*$ 经过标准化处理，分布接近正态。
假设 2：条件流匹配（CFM）损失 $\mathcal{L}_{CFM}^i = \left\| v_\theta(A_t^i, o_t^i) - u(\{A_t^i\}^\tau|A_t^i) \right\|^2$ 服从高斯分布 $\mathcal{N}(\mu_L, \sigma_L^2)$ （ $\mu_L$ 为损失均值， $\sigma_L^2$ 为损失方差）——后训练阶段 CFM 损失快速收敛到低方差状态，分布近似正态。
假设 3：当批次大小B足够大时，可用批次样本的期望、方差近似全局的 $\mu_L$ 、 $\sigma_R^2$ 、 $\sigma_L^2$ ——工程上 $B = 16$ （参考附录表 7）即可满足近似精度。

基于上述假设，通过理论推导得到两个关键推论，实现 $J(\alpha)$ 的简化与 $\alpha^*$ （最优 $\alpha$ ）的求解：

推论 1（ $J(\alpha)$ 简化）：将 $\text{Var}(\hat{g}(\alpha))$ 与 $S(\alpha)$ 用高斯分布的参数表示， $J(\alpha)$ 简化为： $J(\alpha) = \sigma_L^2 \left[ e^{2\alpha^2 \sigma_R^2} - e^{\alpha^2 \sigma_R^2} \right] - \lambda \alpha \sigma_R^2$ 该式消除了原目标函数中的期望与求和项，仅含 $\alpha$ 与可通过批次样本计算的 $\sigma_R^2$ 、 $\sigma_L^2$ ，为数值求解奠定基础。
推论 2（ $\alpha^*$ 求解方程）：对 $J(\alpha)$ 求导并令导数为 0（最小化 $J(\alpha)$ ），推导得到关于 $\alpha^*$ 的非线性方程，通过变量替换 $\alpha^2 \sigma_R^2$ ，转化为： $4\sqrt{x^*} e^{2x^*} - 2\sqrt{x^*} e^{x^*} - \frac{\lambda \sigma_R}{\sigma_L^2} = 0, \quad \alpha^* = \frac{\sqrt{x^*}}{\sigma_R}$ 其中 $x^*$ 为替换后的变量， $\alpha^*$ 可由 $x^*$ 与 $\sigma_R$ 计算得到。

二分迭代算法：高效求解 $\alpha^*$

针对推论 2 中的非线性方程，设计二分迭代算法（算法 1）实时求解 $\alpha^*$ ，确保每批次训练都能获得适配当前数据分布的最优 $\alpha$ ，算法核心步骤如下：

参数初始化：输入批次内的 RL 优势 $R_i^*$ 、流匹配损失 $\mathcal{L}_{FM}^i$ 、批次大小B、超参数 $\lambda$ 、 $\alpha$ 的取值范围 $[\alpha_{\text{min}}, \alpha_{\text{max}}]$ （默认 $[0.01, 5]$ ）、迭代次数M（默认 20）与容差 $\epsilon$ （默认 $1.0 e - 5$ ），计算 $\sigma_R^2$ （ $R_i^*$ 的方差）、 $\mu_L$ （ $\mathcal{L}_{FM}^i$ 的均值）、 $\sigma_L^2$ （ $\mathcal{L}_{FM}^i$ 的方差）。
函数定义：定义非线性方程对应的函数 $4\sqrt{x}e^{2x} - 2\sqrt{x}e^x - \lambda \sigma_R \sigma_L^2$ ，求解 $F (x) = 0$ 的根 $x^*$ 。
二分迭代：
- 初始化搜索区间 $[x_{\text{low}}, x_{\text{high}}]$ （由 $\alpha_{\text{min}}$ 、 $\alpha_{\text{max}}$ 与 $\sigma_A$ 计算得到）。
- 迭代M次：每次取区间中点 $x_{\text{mid}}$ ，若 $|F(x_{\text{mid}})| < \epsilon$ （满足精度要求）则终止；若 $F(x_{\text{mid}}) > 0$ 则缩小上界 $x_{\text{high}}=x_{\text{mid}}$ ，否则缩小下界 $x_{\text{low}}=x_{\text{mid}}$ 。
$\alpha^{*}$ 计算与裁剪：由最终区间中点计算 $x^*$ ，代入 $\alpha^* = \frac{\sqrt{x^*}}{\sigma_R}$ ，并将 $\alpha^*$ 裁剪到 $[\alpha_{\text{min}}, \alpha_{\text{max}}]$ ，避免取值极端。

ARFM 完整微调算法：串联各模块的工程实现

为将上述理论模块落地，设计 ARFM 后训练算法（算法 2），实现 VLA 流模型的端到端离线 RL 微调，具体流程如下：

数据输入：输入后训练数据集 ${A_t, o_t\}$ （含动作块与多模态观测）、批次大小B、预训练的 VLA 流模型 $v_\theta$ （如 $\pi_0$ ）。
批次循环：对每一批次数据 ${A_t^i, o_t^i\}$ （ $i = 1$ 到B）执行以下操作：
- 噪声与时间步采样：为每个样本采样高斯噪声 $\epsilon_i \sim \mathcal{N}(0,I)$ 与随机时间步 $\tau \sim \text{Uniform}(0,1)$ 。
- 带噪声动作生成：计算 $\{A_t^i\}^\tau = \tau A_t^i + (1-\tau) \epsilon_i$ 。
- RL 优势与能量计算：计算每个样本的 RL 优势 $R_i = R^*(A_t^i, o_t^i)$ ，并预处理得到 $g_i = \exp(R_i)$ 。
- 流匹配损失计算：计算基础流匹配损失 $\mathcal{L}_{FM}^i = \left\| v_\theta(\{A_t^i\}^\tau, o_t) - (\epsilon - A_t^i) \right\|^2$ 。
最优 $\alpha^{*}$ 求解：调用算法 1，输入当前批次的 $R_i$ 、 $\mathcal{L}_{FM}^i$ 等参数，得到最优缩放因子 $\alpha^*$ 。
加权损失计算：计算每个样本的权重 $w_i(\alpha^*) = \frac{\exp(\alpha^* g_i)}{\sum_j \exp(\alpha^* g_j)}$ ，并求和得到批次加权损失 $\mathcal{L}_1^\tau(\theta) = \sum_i w_i(\alpha^*) \mathcal{L}_{FM}^i$ 。
模型更新：对 $\mathcal{L}_1^\tau(\theta)$ 求梯度，采用 AdamW 优化器（学习率等参数见附录表 7）执行梯度下降，更新 VLA 流模型的参数 $\theta$ 。
迭代终止：重复批次循环，直至完成预设的后训练步数（LIBERO 仿真中为 40000 步，UR5 真实实验中为 60000 步）。

该算法通过 “批次内自适应调整 $\alpha$ ”，确保模型在不同数据分布下均能平衡 RL 信号与训练稳定性，且与现有 VLA 流模型（如 $\pi_0$ ）兼容，无需修改模型骨干结构，工程落地成本低。

实验基础设置

实验环境与任务设计

仿真环境：采用 LIBERO 基准测试平台，该平台为综合型终身学习机器人基准，通过语言引导指令定义任务，涵盖 4 个核心套件（各含 10 个独立任务），分别针对不同操控能力评估：
- Object 套件：聚焦物体属性相关操控（如抓取特定形状 / 颜色物体）；
- Long 套件：侧重长序列动作操控（如多步物体传递）；
- Spatial 套件：考察空间位置相关任务（如按指定坐标放置物体）；
- Goal 套件：以目标导向任务为主（如将物体堆叠至指定高度）。
真实世界环境：使用 UR5 机械臂搭建实验平台，设计 3 类抓取 - 放置任务（操控立方体、玉米、辣椒等物体），并对目标物体引入外部物理扰动（如轻微碰撞、位置偏移），模拟真实场景中的不确定性。
数据与奖励配置：真实世界实验收集约 720 条成功轨迹（含 34600 余帧数据），涵盖第一 / 第三人称 RGB 图像（480×640×3 维度）、机器人关节角度（7 维度）及期望关节角度（7 维度）；奖励函数采用 13 项密集奖励组件（含子目标达成、任务进度、行为平滑度、任务完成等，具体权重见附录表 8），参考 ReinboT（Zhang 等人，2025）的奖励设计原则，兼顾任务目标与动作稳定性。

图2｜基准测试平台。

基准方法选择与设置

为全面验证 ARFM 性能，将基准方法分为非流匹配型与流匹配型两类，且为保证公平性，基于 $\pi_0$ 模型复现流匹配型基准的适配版本：

非流匹配型基准：
- 自回归模型：Octo、OpenVLA，均为通用 VLA 模型；
- 扩散类模型：Diffusion Policy、MDT、Dita，通过扩散过程建模动作生成；
- 离散技能模型：QueST，用 VQ-VAE 将连续动作离散为技能码本后自回归预测。
流匹配型基准：
- 基础流模型： $\pi_0$ ，基于轨迹级流匹配的 VLA 模型，为 ARFM 的基础对比模型；
- 离线 RL 微调方法：ReinboT（引入 RL 未来回报指导微调）、RWR（通过奖励加权回归优化模型），二者均基于 $\pi_0$ 复现流模型版本。

关键实验参数

训练配置：LIBERO 仿真中执行 40000 步全参数微调，UR5 真实实验中执行 60000 步微调，均使用 2 块 NVIDIA A100-SXM4-80GB GPU，CPU 为 Intel ® Xeon ® Platinum 8358（2.60GHz）；
超参数：批次大小为 16，动作时域长度 $H = 50$ ，优化器采用 AdamW（学习率 $1.0 e - 4$ ，权重衰减 $1.0 e - 10$ ），学习率调度器为带预热的余弦衰减（预热步数 1000，衰减步数 30000），ARFM 专属超参数 $\lambda=5.0e-4$ 、 $\alpha$ 取值范围 $[0.01, 5]$ 、二分迭代次数 $M = 20$ （具体见附录表 7）；
评估指标：以成功率（SR） 为核心性能指标，抗扰动实验中添加 0.1-0.3 级高斯动作噪声，持续学习中采用负向后迁移（NBT） 衡量遗忘程度（ $NBT=\frac{1}{T-1}\sum_{i}^{T-1}max(0,(SR)_i-(SR)_i^T)$ ， $SR)_i$ 为单任务学习后成功率， $SR)_i^T$ 为全任务学习后成功率，NBT 越小表示遗忘越少）。

核心实验结果与分析

多任务学习：验证泛化能力

实验目的：对比 ARFM 与基准方法在 LIBERO 四套件多任务场景下的整体性能，结果如下表所示：

图3｜多任务成功率对比结果。

核心结论 1：流匹配型模型（ $\pi_0$ 、ReinboT、RWR、ARFM）整体成功率显著高于非流匹配型，其中流匹配型平均成功率最低为 $\pi_0$ 的 88.1%，非流匹配型最高为 QueST 的 82.7%，证明流匹配模型的轨迹建模能力更适配 VLA 多任务操控；
核心结论 2：ARFM 在流匹配型中表现最优，多任务平均成功率达 92.1%，较基础模型 $\pi_0$ 提升 4.5%，高于 ReinboT（91.2%，+3.5%）与 RWR（90.8%，+3.1%），验证 ARFM 的自适应能量加权机制能更高效利用 RL 信号，提升模型泛化性。

动作扰动实验：验证鲁棒性

实验目的：评估模型在动作噪声干扰下的稳定性，对模型推理阶段的动作添加 0.1-0.3 级高斯噪声，结果如下表所示：

图4｜不同程度的动作噪声干扰下各模型整体成功率对比结果。

核心数据：ARFM 平均成功率为 48.2%，显著高于 $\pi_0$ （43.3%，+11.4%）、ReinboT（46.3%，+1.9%）与 RWR（46.4%，+1.8%）；
关键分析：ARFM 通过动态调整 $\alpha$ 平衡 RL 信号与梯度方差，避免高噪声样本导致的梯度异常，使模型学习到更稳健的动作轨迹分布，因此在噪声干扰下仍能保持较高成功率。

少样本学习实验：验证数据利用效率

实验目的：在 LIBERO-Long 套件中设置 10-shot、20-shot、30-shot（每任务仅 10/20/30 条轨迹数据）场景，评估模型在数据稀缺时的学习能力，结果如下表所示：

图5｜少样本学习设置下的平均成功率对比。

核心数据：ARFM 在三种少样本设置下平均成功率为 36.5%，较 $\pi_0$ （32.5%，+12.2%）、ReinboT（33.9%，+2.6%）、RWR（34.6%，+1.9%）均有提升；
关键分析：ARFM 的自适应 $\alpha$ 能优先聚焦高 RL 优势的稀缺样本，避免数据不足时的噪声干扰，提升数据利用效率，因此在少样本场景下表现更优。

持续学习实验：验证抗遗忘能力

实验目的：评估模型在 “Long→Long+Goal→Long+Goal+Object” 的序列任务学习中，对旧任务的遗忘程度与新任务的学习能力，结果下表所示：

图6｜在 LIBERO-Long（L）、Goal（G）和 Object（O）系列中进行持续学习时的性能对比。

核心数据：ARFM 最终平均成功率 61.0%，较 $\pi_0$ （55.2%）提升 10.5%；NBT 为 4.7，较 $\pi_0$ （7.5）降低 38.0%，且显著低于 ReinboT（6.6）与 RWR（7.3）；
关键分析：ARFM 通过控制梯度方差避免参数更新过度偏向新任务，同时保留旧任务的高 RL 优势信号，有效缓解 “灾难性遗忘”，更适配终身学习场景。

消融实验：验证关键组件有效性

实验目的：分析 ARFM 中核心超参数 $\lambda$ （RL 信号与梯度方差权衡系数）与M（二分迭代次数）对性能的影响，结果如图所示：

图7｜在 LIBERO-Goal 系统中对优化目标超参数λ（a）以及二分迭代次数 M（b）进行消融研究。

超参数 $\lambda$ ：不同 $\lambda$ 下模型成功率波动小于 2%，证明 ARFM 的自适应机制降低了对 $\lambda$ 的敏感性，无需精细调参；
迭代次数M：当 $M \geq 10$ 时，模型成功率趋于稳定（波动小于 1%），说明仅需 10 次迭代即可获得近似最优 $\alpha$ ，算法轻量化且高效。

真实世界实验：验证场景适配性

实验目的：在 UR5 机械臂抓取 - 放置任务（含外部扰动）中评估模型实际性能，结果如图所示：

图8｜在外部干扰下真实场景中的抓取与放置任务的性能比较。

核心结论：ARFM 在三类物体操控任务中的平均成功率显著高于 $\pi_0$ ，且抗扰动能力最优——当目标物体受轻微碰撞时，ARFM 成功率较 $\pi_0$ 提升 15%-20%，证明其能将仿真中的性能迁移到真实复杂场景，适配实际机器人操控需求。

总结

ARFM 的核心是在 VLA 流模型损失函数中引入自适应缩放因子，构建偏差 - 方差权衡目标函数，动态平衡 “保留 RL 优势信号” 与 “控制流损失梯度方差”，既放大高RL优势样本权重以捕捉数据质量特性，又避免梯度爆炸保障训练稳定；同时通过合理假设推导缩放因子的优化目标与求解方程，设计二分迭代算法实时更新最优缩放因子，并配套完整微调算法，形成理论到落地的完整链路。

在 LIBERO 仿真基准与 UR5 真实机械臂平台实验中，ARFM 表现优异：多任务学习泛化能力、动作扰动场景鲁棒性、少样本学习数据利用效率、持续学习抗遗忘能力均优于 $\pi_0$ 、ReinboT 等基准；且超参数敏感性低、求解高效，在真实带扰动抓取 - 放置任务中适配性好，验证了其实用价值。

未来可探索 ARFM 在 VLA 流模型在线 RL 后训练中的应用，通过环境交互进一步提升模型对新场景的适配能力。

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git