对话πRL一作：RLinf流匹配 VLA 在线强化学习框架！π系列模型成功率提升至98%

这类模型能以极简方式建模多峰分布，生成高维、平滑的连续动作序列，在复杂操控任务中展现出显著潜力。强化学习可通过环境交互自主探索与迭代，有望降低对演示数据的依赖，并进一步提升模型性能上限。目前，针对流匹配VLA的强化学习方法仍较为缺乏，主流研究多集中于自回归架构的VLA（如OpenVLA）。其核心挑战在于：流匹配模型通过迭代去噪生成动作，难以直接计算动作的对数似然，而这正是PPO、GRPO等策略梯度

深蓝学院

460人浏览 · 2025-12-04 17:39:04

深蓝学院 · 2025-12-04 17:39:04 发布

「打通“生成模型”与“强化学习”的边界」

作者｜深蓝学院

点击加入｜16类交流群

近年来，基于流匹配的VLA模型（如π0, π0.5）已成为机器人领域的前沿方向。

这类模型能以极简方式建模多峰分布，生成高维、平滑的连续动作序列，在复杂操控任务中展现出显著潜力。

然而，VLA模型的训练严重依赖大规模、高质量的人类演示数据，其收集与标注成本高、周期长。强化学习可通过环境交互自主探索与迭代，有望降低对演示数据的依赖，并进一步提升模型性能上限。

目前，针对流匹配VLA的强化学习方法仍较为缺乏，主流研究多集中于自回归架构的VLA（如OpenVLA）。其核心挑战在于：流匹配模型通过迭代去噪生成动作，难以直接计算动作的对数似然，而这正是PPO、GRPO等策略梯度算法更新的关键。

在此背景下，清华、北大、CMU等多个国内外知名团队，共同提出了πRL——让 π 系列模型第一次具备了在线强化学习（Online RL）能力。

为深入解析这一突破性工作，12 月 9 日 20:00，我们特别邀请到 πRL 论文的第一作者——北京大学的陈康博士，带来一场深度技术分享。

提前加入交流群，获取公开课课件，并与同仁们深入探讨

两种创新方案

Flow-Noise：在流匹配的去噪过程中引入可学习噪声网络

把原本确定性的采样过程转化为离散时间的马尔可夫决策过程（MDP），从而获得精确的动作似然估计；
Flow-SDE：通过ODE→SDE 转换，将去噪方程改写为随机微分方程

在保持分布一致的前提下引入探索性噪声，构建了内外双层 MDP，使模型能在“生成”和“交互”两个层面同时学习。

通过这两种机制，πRL 实现了让“流模型”真正能在环境中以 RL 方式自我优化的能力。

关键成果显示

在LIBERO评测中，仅用少量演示数据结合RL，π0与π0.5模型成功率均提升至98%左右，大幅超越全量数据监督训练的结果。
在高保真仿真环境 ManiSkill中，πRL 同样取得突破：模型成功率提升超过一倍，并展现出优秀的泛化性与执行效率。

结果表明，πRL 不仅能让模型在小样本条件下自我强化，还能在复杂、多任务环境中保持高效泛化。

12 月 9 日 20:00，πRL的核心作者——北京大学的陈康博士，将亲述πRL框架的核心思想与实现细节。

（点击加入交流群）

我们相信，优秀的人终会相遇。

我们交流群见！12月9日直播来聊！

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git