前言

今年十一7天假期期间,一半的时间都在改本博客内的上一篇文章《从Fast-UMI到Diff-Control:分别改进UMI的硬件及其所用的Diffusion policy(含ControlNet详解)》,改完之后,接下来计划要写的博客包括且不限于

  • 第1-2篇,大模型提炼idea、论文生成的实现关键
  • 第3篇,ALOHA 2和ALOHA Unleashed
  • 第4-5篇,OpenAI o1、llama 3.2
  • 第6篇,视频内容理解
  • 第7-10篇,GraghRAG/LightRAG、lerobot、序列并行、vLLM

然10.7日晚,又无意中看到了「UMI on Legs和Helpful DoggyBot」这两个工作,前者把UMI机械臂放到机器狗背上(适合我司之前去一个客户机房的场景),后者把夹爪放到机器狗嘴里

于此,本文来了,且我强烈的希望,在我司「七月在线」早日产生有着世界级影响力的工作、产品

第一部分 UMI on Legs:把UMI机械臂装到机器狗背上

24年7月,来自斯坦福大学、哥伦比亚大学、Google deepmind的研究者Huy Ha, Yihuai Gao, Zipeng Fu, Jie Tan, Shuran Song(标着下划线的是之前moblie aloha的一作,标粗的是之前UMI工作的指导老师),发布了一篇论文《UMI on Legs: Making Manipulation Policies Mobile with Manipulation-Centric Whole-body Controllers》,相当于把UMI机械臂装到了机器狗的背上

1.1 整体概览:腿式机器人的通用操控界面的方法/原理

1.1.1 UMI-on-Legs的技术架构:行为克隆下的扩散策略 + RL全身控制器

UMI-on-Legs由两个主要组件组成:

  1. 一个基于扩散的高级操控策略[即Diffusion policy],该策略以腕部安装的摄像头视图作为输入,并在摄像头坐标系中输出末端执行器姿态目标序列
  2. 一个低级全身控制器,通过输出腿部和手臂的关节位置目标来跟踪末端执行器姿态目标。我们训练该操控系统

使用 UMI 的手持式抓取数据收集设备在现实世界中收集数据的策略,并使用大规模并行模拟器 [3- Isaac gym: High performance gpu-based physics simulation for robot learning] 完全在模拟环境中训练 WBC

作者团队选择使用任务框架末端执行器轨迹作为接口具有以下优点:

  1. 直观演示:通过使用末端执行器轨迹而不是机器人特定的低级动作,允许非专业用户使用像UMI 这样的手持设备进行直观的任务演示
  2. 预览视野中的高层意图:通过对未来目标的预览视野,整体身体控制器可以预判即将到来的动作。例如,如果即将出现高速抛掷,机器人应相应地做好准备。同时,如果目标在手臂的可及范围内移动,身体应倾斜而不是迈步,以避免末端执行器晃动
  3. 在任务框架中的精确且稳定的操控:与大多数使用身体框架跟踪的腿式操控系统不同,该控制器在任务空间中进行动作跟踪,如下图所示

    该空间在基座移动时仍然保持不变,从而实现精确且稳定的操控
  4. 异步多频率执行:该接口定义了一个自然的推理层次结构,允许低频操控策略(1-5Hz)与高频低级控制器(50Hz)协调,以处理截然不同的传感器和推理延迟
  5. 兼容任何基于轨迹的操作策略:接口支持任何基于轨迹的操作策略的即插即用 [1,38,41,43,47,49]
    随着在多样化数据集上训练的策略的兴起 [43–47],以操作为中心的WBC可以加速现有“桌面”操作技能向“移动”操作的移植

1.1.2 使用行为克隆的操控策略

根据Chi等人的默认配置,作者使用U-Net架构扩散策略,如下图a所示

且结合DDIM调度器和预训练的CLIP视觉编码器。同时,使用64的较长动作范围,为低级控制器提供更多的未来信息

  1. 在杯子重排任务中,直接使用UMI的杯子重排检查点
  2. 对于推和扔的任务,从头开始收集数据并训练扩散策略

1.1.3 基于强化学习的全身控制器

为了跟踪从操作策略预测的末端执行器轨迹,作者建议在模拟中使用强化学习训练一个全身控制器,以推断手臂和腿的关节目标。值得注意的是,设置一个模拟来跟踪这些操作末端执行器轨迹并不需要设置操作任务和环境。这个设计大大缓解了使用模拟数据的一个关键瓶颈

1.2 深入细节:基于RL的全身控制器实现步骤

1.2.1 任务框架轨迹跟踪操控轨迹

  • 先前的工作[8,10–12]通常在身体框架中采样目标末端执行器姿势来训练他们的全身控制器(WBCs),这简化了策略优化,但没有训练控制器协调全身以补偿身体运动和扰动的技能,如下图右下角所示

    在操控过程中手臂动量导致基座发生显著移动的场景中(即,轻量级基座或动态手臂运动),这个问题会被放大
  • 相比之下,作者训练他们的控制器在任务框架中跟踪姿势轨迹,如下图a所示,这种形式化方法教会手臂

    通过补偿和消除机体运动或震动,保持其末端执行器在任务框架中的姿态。 为了为控制器提供相关的参考轨迹,我们使用了通过UMI [1] 收集的轨迹
     

1.2.2 观测空间

观测空间包括机器人的18个关节位置和速度、底座的方向和角速度、先前的动作,以及通过操控策略推断的末端执行器轨迹

  1. 作者使用一个3D向量表示末端执行器的位置,并使用6D旋转表示其姿态,且以20ms的间隔从当前时间的-60ms到60ms密集采样目标姿态,这为控制器提供当前速度和加速度的信息
  2. 此外,还包括未来1000ms的目标,这有助于控制器在必要时准备迈步

1.2.3 奖励

任务目标通过最小化位置误差\epsilon_{\mathrm{pos}}和方向误差\epsilon_{\text {orn }}来奖励策略,以达到目标姿态

\exp \left(-\left(\frac{\epsilon_{\mathrm{pos}}}{\sigma_{\mathrm{pos}}}+\frac{\epsilon_{\mathrm{om}}}{\sigma_{\mathrm{om}}}\right)\right)

其中,\sigma为根据精度要求调整的缩放项,在这种公式中,位置和方向的项是交织在一起的

  1. 作者观察到,这比将位置和方向的项分开要产生更理想的行为,因为分开的情况下策略只能在位置或方向上达到高精度
  2. 且他们还观察到,位置和方向的\sigma curriculum对于在训练的早期阶段促进探索是必要的,同时在后期阶段迫使策略达到高精度「We also observed that a σ curriculum for both positionand orientation is necessary to enable exploration during the early stage of training while forcing thepolicy to achieve high precision in the later stages
    且在主要任务奖励的基础上,遵循常见的惯例[7–9,12],并包含额外的正则化和shaping terms
    On top of the main task reward, we follow commonconventions [7–9, 12] and include extra regularization and shaping terms, detailed in the supp. material.

1.3 系统集成

1.3.1 机器人系统设置

机器人系统由一个12自由度的Unitree Go2四足机器人和一个6自由度的ARX5机械臂组成,二者均由Go2的电池供电

  • 作者为ARX5机械臂定制了Finray夹持器和一个GoPro相机,以匹配UMI夹持器
  • 且全身控制器在Go2的Jetson上运行,而扩散策略推理则通过互联网连接在一台独立的桌面电脑的RTX 4090上运行
  • 同时,安装了一部iPhone用于姿态估计,并通过以太网线将其连接到Jetson

1.3.2 Sim2Real 转移

根据先前的研究,作者在训练过程中对机器人施加随机推力,以实现更好的鲁棒性。且随机化关节摩擦、阻尼、接触摩擦、机身和手臂的质量以及质心

他们还观察到,在训练过程中建模 20 毫秒的控制延迟是至关重要的。为了考虑里程计系统中的噪声,在每个训练过程的中途每 20 秒随机移动机器人

1.3.3 实时可访问的里程计

缺乏实时的机载任务空间跟踪是先前四足机器人操作工作中的一个常见限制。通过假设使用运动捕捉[31]和/或AprilTags[8,11,36]进行外部跟踪,这些系统无法在野外完全自主部署

  1. 在作者的系统中,作者通过在机器人底座上安装一部iPhone来解决这一缺陷。且选择将其安装在后部,以避免在机器人手臂上增加额外重量,防止手臂与手机碰撞,并最大限度地减少运动模糊和视觉遮挡
  2. 与许多现有的鲁棒实时里程计解决方案[13–15]相比,作者的里程计解决方案具有自包含、紧凑的外形,并且仅使用普遍存在的消费电子设备

更多信息,请参见原论文

第二部分 大模型驱动机器狗之Helpful DoggyBot:UMI夹爪装到机器狗嘴里

1.1 Helpful DoggyBot:使用四足机器人和VLM进行开放世界对象抓取

1.1.1 RL/仿真训练的低级控制器,结合用于语义理解和命令生成的VLM

24年9月底,来自斯坦福大学、UC San Diego的研究者联合发布了大模型驱动机器狗之Helpful DoggyBot,他们是

  1. Qi Wu(此前HumanPlus的三作,关于humanplus,详见此文:HumanPlus——斯坦福ALOHA团队开源的人形机器人:融合影子学习技术、RL、模仿学习)
  2. Zipeng Fu(moblie aloha一作、humanplus一作,关于mobile aloha,详见此文的第三部分)
  3. Xuxin ChengOpen-TeleVision一作,关于Open-TeleVision,详见此文《UC San Diego的三大机器人:AnyTeleop、Open-TeleVision、Bunny-VisionPro——从RGB相机到VR远程控制机器人》的第二部分
  4. Xiaolong Wang(UC San Diego的三大机器人的指导老师,和之前UMI导师Shuran Song一样,也是华人导师,只是Wang在UC San Diego,Song则之前在哥伦比亚大学 现在斯坦福大学)
  5. Chelsea Finn(之前moblie aloha、humanplus的指导老师,你可能没想到的是,她所在的实验室还推出了PPO的替代算法DPO)

如此,今年年初以来 一直持续追踪的作者/团队/实验室,也算在这个工作中 联动了,这种氛围真不错,希望我司也能不断逼近 ​​​

  • 其对应论文为《Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models
  • 其项目网址为:https://helpful-doggybot.github.io/
  • 该系统使用前置夹爪进行物体操作,使用在仿真中训练的低级控制器利用自我中心深度感知进行敏捷技能(如攀爬和全身倾斜),并使用预训练的视觉-语言模型(VLMs)结合第三人称鱼眼和自我中心RGB摄像头进行语义理解和指令生成
    It uses a front-mounted gripper for object manipulation, a low-level controller trained in simulation using egocentric depth foragile skills like climbing and whole-body tilting, and pre-trainedvision-language models (VLMs) with a third-person fisheye and an egocentric RGB camera for semantic understanding andcommand generation

相较于之前的工作[4], [5],作者使用强化学习和仿真来训练一个通用的低级控制器——且使用自我中心深度和本体感觉

  1. 且在训练过程中随机采样机器人指令,包括线速度、角速度和俯仰角,以与任务无关的方式在充满挑战性障碍的环境中进行
  2. 在训练后的零样本实际部署中,控制器接收实时的自我中心深度测量和任务特定的指令——相当于在执行指令的过程中随时自我观察

在语义感知和控制方面,为了解决有用的任务,作者没有依赖耗时的人类演示或存在语义差距的模拟,而是利用现成的视觉语言模型(VLMs)实现对象和配置的零样本泛化「On the semantic perception and control front for solvinguseful tasks, instead of relying on collecting human demonstra-tions that is time-consuming or simulation that has semanticgaps, we leverage off-the-shelf VLMs to achieve zero-shot generalization in objects and configurations

  1. 通过使用VLMs和安装在天花板上的鱼眼俯视RGB摄像头实时视频流,该系统可以解析感兴趣对象的开放词汇命令,识别、定位并跟踪场景中的目标对象和机器人自身,并根据目标对象和机器人的位置生成低级控制器反应导航命令
    Using VLM sand real-time video streams from a fish-eye top-down RGB camera mounted on the ceiling, our system can parse the open-vocabulary command of an object of interest, identify,localize and track the target object and robot itself with in the scene, and generate reactive navigation commands based on the locations of the target object and the robot for the low-level controller
  2. 在接近目标对象时,该系统使用自我中心的RGB摄像头跟踪目标对象的相对位置,并将其转换为速度、俯仰和抓取命令
    Upon approaching target objects, our systemuses an egocentric RGB camera for tracking relative positionsof the target object which are converted into velocity, pitchand grasping commands

总之,Helpful DoggyBot结合了低级控制的模拟训练,以及用于语义理解和命令生成的VLMs

1.1.2 与以前工作的关联、区别、优势

在此之前,探索了几种方法来增强四足机器人的操控能力

  1. 一种常见的方法是在四足机器人的背部安装一个机械臂 [3], [37]–[45]。虽然这提供了显著的灵活性,但也增加了系统的重量和复杂性,从而降低了四足机器人的灵活性
  2. 另一种方法是利用四足机器人的现有或改装肢体和躯干进行简单的推送任务 [46]–[51]。基于学习的方法在开发腿部操控技能方面显示出潜力

    例如,[42-即上文第一部分介绍的UMI on legs] 将模仿学习用于目标末端执行器轨迹生成,并将强化学习用于低级控制
    [48]通过连接多个策略,在指示标记的引导下完成推送任务。然而,这些方法通常难以在训练时使用的特定任务和环境之外进行泛化
  3. 随着大型预训练模型的出现,特别是在计算机视觉和自然语言处理领域,开启了机器人学习的新途径[52]–[71],比如Open X-Embodiment、Voxposer、Copa、Rt-2,详见此文:《视觉语言机器人的大爆发:从RT2、VoxPoser、OK-Robot到Figure 01、清华CoPa

    这些模型在大量视觉数据上进行训练,提供了丰富的语义表示,可以用于各种机器人任务
    在操作的背景下,[53-Voxposer], [55-Language to rewards for robotic skill synthesis] 使用视觉语言模型(VLMs)为语言指令中指定的任务生成代价函数,而[57-Pivot: Iterative visual prompting elicits actionable knowledge for vlms], [72-Rt-trajectory]–[74-Rt-h] 则使用VLMs直接生成可执行命令或中间表示
  4. 然而,上面那些方法主要集中在静态操作场景。对于移动机器人,最近的研究探索了使用大型预训练模型进行导航和运动[50-Creative robot tool use with large language
    models], [57-Pivot], [75]–[78]
    例如,先前的研究展示了如何使用VLMs为轮式机器人[75-LM-nav]和腿式机器人[58-Commonsense reasoning for legged robot adaptation with vision-language models]生成导航命令

    然而,这些模型与移动操作的整合仍相对未被深入研究。DoggyBot的工作通过利用预训练的视觉语言模型,为四足机器人执行移动操作任务提供语义理解和自适应行为生成,从而弥合这一差距

总之,与之前的方法不同,DoggyBot展示了如何有效地将大型预训练模型与学习到的低级控制器结合使用,实现对移动操作任务的零样本泛化

1.2 硬件相关

如下图所示

DoggyBot的机器人硬件系统由一个具有12个自由度的Unitree Go2四足机器人(即Go2 quadruped robot),和一个安装在机器人底部的1个自由度的抓手组成,两者均由Go2的车载电池供电

  1. 且使用3D打印技术和定制制造了DoggyBot的Finray抓手,该抓手通过滑块-曲柄机构由Dynamixel XM430-W350-T伺服电机驱动,以实现快速闭合
  2. 同时,使用车载Jetson运行DoggyBot学习的低级控制器,该控制器以RealSense D435提供的自我中心深度和本体感知作为输入
    We use the onboard Jetson to run our learned low-level controller that takes egocentric depth from a RealSense D435 and proprioception as input
  3. VLMs在接近物体时以自我中心的RGB作为输入
    DoggyBot通过Wi-Fi将从VLMs生成的高级指令发送到Jetsen,这些指令是在另一台工作站上运行的VLMs生成的,该工作站以第三人称俯视RGB流作为输入

1.3 学习通用全身控制器

为了在多样化的室内环境中实现有效的移动操作,DoggyBot需要具备灵活的运动技能以跨越各种障碍,以及精确的全身控制能力以扩展其工作空间

以往的研究通常将这些挑战分开处理 [32-Extreme parkour with legged robots], [33-Robot parkour learning],但将多个目标整合到一个学习框架中会引入新的复杂性。这些复杂性包括增加探索负担以及在同时优化多个目标时可能出现的次优行为 [43-Deep whole-body control: learning a unified policy for manipulation and locomotion]

如下图所示,他们的方法利用了一个专注于全身控制和灵活性的两阶段训练过程,以克服这些挑战

1.3.1 阶段1:使用特权信息进行训练

他们通过一个两阶段的训练过程开发我们的敏捷视觉全身控制策略,在第一阶段,使用PPO [79] 训练一个策略,以优化全身控制和敏捷运动目标

在此阶段,策略使用特权信息作为观察输入,这些信息以扫描点的形式存在,捕捉机器人附近地形的高度,从而在模拟中实现高效学习「During this phase,the policy uses privileged information in the form of scandots,capturing heights of terrain near the robot, as observations,allowing for efficient learning in simulation

  1. 全身目标
    该目标使机器人能够跟踪随机采样的俯仰指令,扩展一自由度夹爪的工作空间。将奖励定义为:
    r_{\mathrm{wb}}=\exp \left(-3 \cdot\left|p_{\mathrm{cmd}}-p\right|\right)
    其中,p_{cmd}是从范围[-30^\circ, 30^\circ]均匀采样的指令俯仰角,p是机器人机身的实际俯仰角。只有当机器人遇到障碍物时,才会移除这个目标,以避免目标冲突
  2. 敏捷运动目标
    该目标鼓励机器人穿越诸如高台阶等具有挑战性的障碍
    为了减轻探索负担,采用速度跟踪,其奖励灵感来源于[32-Extreme parkour with legged robots]
    r_{\text {tracking }}=\min \left(\left\langle v, \hat{d}_{\mathrm{wp}}\right\rangle, v_{\mathrm{cmd}}\right) / v_{\mathrm{cmd}}
    其中
    v \in \mathbb{R}^2是机器人在世界坐标系下的当前速度
    v_{\text{cmd}} \in \mathbb{R}是从范围 [0, 1m/s] 中采样的线速度指令
    \hat{d}_{\text{wp}}是指向下一个航点的单位向量(ˆdwp is the unit vector pointing towards the next waypoint)

    接下来,将\hat{d}_{\text{wp}}转换为角速度指令,\omega_{\mathrm{cm}}作为策略输入,它计算机器人当前方向与\hat{d}_{\mathrm{wp}}之间的角度差,从而消除策略对全局信息的依赖

    且在世界坐标系下跟踪速度,以防止机器人学习到诸如绕过障碍物之类的非预期行为,同时,使用放置在地形上的航点来计算方向(We compute the direction using way points placed on theterrain)
    \hat{d}_{\mathrm{wp}}=\frac{x_{\mathrm{wp}}-x}{\left|x_{\mathrm{wp}}-x\right|}
    其中,x_{w}是下一个航点的位置,x 是机器人在世界坐标系中的当前位置

1.3.2 阶段2:使用自我中心深度进行策略蒸馏

为了实现实际部署,DoggyBot在第一阶段将学习到的策略提炼为可部署的策略,该策略基于前置摄像头的深度图像运行,而不是特权的扫描点信息

  1. DoggyBot使用正则化在线适应(ROA)[43-Deep whole-body control: learning
    a unified policy for manipulation and locomotion]来训练一个在线估计器,从机载观察历史中恢复环境信息
    且DoggyBot的在线估计器架构由一个卷积神经网络CNN和一个门控循环单元GRU组成,用于处理深度图像的时间序列
    这种设计使策略能够从视觉输入中捕捉到空间和时间信息。该估计器的输出替代了在第一阶段中学习到的基础策略的扫描点输入
  2. 与之前的工作[32-Extreme parkour with legged robots]的一个关键区别在于,没有同时对航向指令和外感进行双重蒸馏
    相反,利用一个更强大的视觉语言模型(VLM)来指定机器人的预期航向方向
    这种方法帮助我们避免了双重蒸馏过程中可能出现的分布外问题

1.3.3 仿真环境与训练教程

为了确保在各种场景下的稳健性能,他们在多种模拟环境中训练DoggyBot的策略,这些环境具有诸如楼梯和不平地形等具有挑战性的障碍

  1. 为每个训练回合随机生成这些环境,改变楼梯高度、楼梯数量和地形摩擦等参数以促进泛化。为了进一步提高学习效率和策略性能,我们采用奖励塑造技术和Curricula学习方法
  2. 引入辅助奖励以维持平衡、最小化能量消耗以及在不同运动模式(如行走、攀爬和倾斜)之间平滑过渡
    Curricula学习逐步增加训练环境的难度,从简单的平坦地形开始,随着策略的改进逐渐引入更复杂的障碍

通过将这些技术与上面的两阶段训练过程相结合,作者开发出一种通用的全身控制器,能够灵活应对各种挑战

1.4 使用 VLMS 的零样本部署

为了实现对未见环境和物体的零样本泛化,作者利用预训练的视觉语言模型进行语义理解和自适应行为生成。他们的系统集成了开放词汇的目标检测、高效导航和精确抓取,所有这些都无需特定任务的训练数据或微调

1.4.1 基于Florence-2的开放词汇检测、与基于SAM2的分割和跟踪

DoggyBot系统结合了最先进的视觉模型,以实现稳健的开放词汇对象检测、分割和跟踪

  • 初步检测:使用Florence-2 [80]进行开放词汇的目标检测。这使他们的系统能够根据自然语言描述识别和定位机器人自身及目标物体,从而在任务指定上提供灵活性
  • 分割:在初步检测之后,应用SAM2(Segment Anything Model 2)[81]生成精确的物体掩码
    Florence-2和SAM2的结合使该系统能够处理各种物体,而无需对特定类别进行预先训练
  • 跟踪:为了保持实时性能,DoggyBot以10Hz的频率使用SAM2进行物体跟踪
    这种方法允许在环境中持续更新物体的位置,这对于导航和操作任务至关重要

1.4.2 导航

DoggyBot导航系统利用安装在天花板上的自上而下的鱼眼摄像头提供环境的全局视图。这种视角使得可以同时跟踪机器人和目标物体的位置,从而简化规划过程

  1. 将检测到的物体位置用作导航的单一航点,生成指令以有效地引导机器人朝目标前进。系统保持向航点以0.8米/秒的恒定线速度前进,而角速度则使用比例控制器计算,Kp=0.5,基于机器人当前航向与指向航点的矢量之间的差异,在此阶段,俯仰指令设为0
  2. 为了确保运动和操作的平稳整合,当机器人距离目标物体约1米时,系统从导航模式切换到抓取模式
    他们假设DoggyBot的低级控制器能够穿越大多数室内障碍物,如床和沙发,因此无需进行避障

1.4.3 物体抓取

当机器人接近目标物体时,它切换到使用前置夹持器的精确抓取策略,从全局感知转变为自我中心感知。系统现在依赖安装在机器人上的自我中心深度和RGB摄像头进行细粒度控制

由于SAM2计算密集,因此不适合机载推理,DoggyBot采用了一个设备上的多阶段感知管道来实现精确的物体定位,结合了

  • GroundingDINO [82] 用于以0.2 Hz进行物体检测
  • MobileSAM [83] 用于在RGBD输入上以0.2 Hz生成精确的物体掩码
  • 以及Cutie [84] 用于以10 Hz进行高频跟踪

这种方法在较慢的过程中保持了精确的物体位置信息

检测更新。从跟踪的掩码中,提取物体在机器人局部坐标系中的中心 (x, y, z) 坐标。然后使用比例控制器生成

  1. 抓取命令:线速度命令基于 x 坐标控制,比例系数 Kp= 0.5;
  2. 角速度命令基于 y 坐标调整,比例系数 Kp= 0.5;
  3. 俯仰命令基于 z 坐标计算,比例系数 Kp= 1

当所有坐标都在一个小阈值范围内时,系统触发抓取动作,表明相对于目标物体的最佳定位。通过整合这些组件,系统实现了对新配置和物体的零样本泛化,使四足机器人能够在无需特定环境训练或数据收集的情况下执行复杂的移动操作任务

总之,预训练的视觉语言模型和高效的感知管道的使用使其在各种场景中表现出色,使我们的方法适用于多种室内应用

1.5 实验与评估

1.5.1 仿真实验

接下来,将DoggyBot的控制器与几个基线进行比较,包括盲目(Blind)、无GRU(No GRU)、无蒸馏(NoDistill)和无航点(No Waypoint),且还包括Oracle(阶段1),即在阶段1中使用特权信息训练的策略

  1. Blind:一种仅使用本体感受而不使用深度图像作为观测的盲策略
  2. 无GRU:一个MLP策略基线。它不使用GRU,而是仅使用当前时间步的深度图像和本体感受信息,不依赖任何记忆来预测动作
  3. 无蒸馏:一种消融训练方法,直接使用PPO和我们的两阶段训练过程,通过GRU训练一个可部署的策略,因此跳过蒸馏阶段
  4. 无航点:移除由航点引导的敏捷运动目标。直接在第一阶段训练策略,给予奖励以鼓励跟踪采样的线性和角速度指令
  5. Oracle(阶段1):第一阶段训练中的策略,该策略能够访问仅在模拟中可用的特权信息

这些基准可以全面的DoggyBot中各个组件的影响及其重要性,包括地形扫描点、视觉输入、时间记忆、两阶段训练过程,以及在引导机器人前进过程中使用航路点

模拟结果如下表I显示

  • Blind和No GRU基线表现不佳,除了在简单的Walk任务中达到100%的成功率外,大多数任务都失败。这些基线缺乏必要的空间意识或记忆机制,无法完成涉及攀爬的复杂顺序导航任务。直接从视觉学习增加了训练过程的复杂性,使得网络无法从零开始正确学习
  • No Waypoint基线在Climb Up和Climb Down任务中表现出中等成功率,但在更具挑战性的攀爬任务中仍然困难重重,突显了即时速度命令生成对于攀爬的重要性

    没有航点作为指导,机器人很容易学会绕过障碍或转身,而不是尝试攀爬,因为只奖励了局部速度
  • 相比之下,DoggyBot的方法在大多数任务中表现出持续更高的性能,尤其是在Climb Up和Climb Down任务中接近完美的得分,并且优于所有基线

过程中,发现使用特权信息的Oracle策略在第一阶段的性能仅有小幅下降。故研究表明,蒸馏策略可以与Oracle策略表现得同样出色,这表明两阶段训练过程的有效性。总体结果表明,整合深度信息、记忆、航点指导和蒸馏等组件的重要性

1.5.2 现实世界实验

接下来,将部署在现实世界中的系统与几个基线进行比较

基线包括Go2默认、远程操作和无跟踪

  • Go2 默认:Go2 内置的默认控制器。此控制器不使用外感知
  • 遥控操作:命令由专业人类操作员通过远程控制器生成,替代VLMs
  • 无跟踪:命令是通过开放环路生成的,使用机器人的初始姿态检测和感兴趣物体的初始姿态检测

如下图所示,他们选择了三个对象和三个环境,这些对象和环境代表了现实世界中的真实场景

  1. 床 + 玩具:机器人需要在床上取回一个毛绒玩具。这个任务要求机器人爬上一张高度为40厘米的标准双人床,拿起床上的毛绒玩具,然后再爬下床
    毛绒玩具被随机均匀地放置在床上的1米乘1米的区域内。机器人最初被随机放置在卧室中
  2. 沙发 + 瓶子:机器人需要在沙发上取回一个空的塑料水瓶。这个任务要求机器人爬上高度为44厘米的沙发,拿起沙发上的瓶子,然后再爬下沙发
    瓶子被随机均匀地放置在沙发上一个0.2米乘1米的区域内。机器人最初随机放置在房间中
  3. 地面 + 球:机器人需要去取地面上的一个球
    球被均匀随机地放置在地面上的一个3米乘3米的区域内

根据下表总结的现实世界实验结果

可知,DoggyBot系统相较于三个基准的有效性

在涉及导航到床上的玩具的任务中,DoggyBot的系统首次尝试的总成功率达到60%,显著优于Go2默认控制器和无跟踪基准,这两者都未能完成任务

  1. Go2默认控制器无法爬上像床和沙发这样高的障碍物,而无跟踪基准仅生成开放式指令轨迹,未能补偿导航和随后的抓取中的漂移
    DoggyBot的系统性能接近于遥操作,首次尝试成功率仅有20%的差距。且发现,尽管在多次尝试的情况下,遥操作可以完美解决任务,但在专家操作员的情况下,遥操作的首次尝试成功率仅约为70-80%
  2. 同样,在从带有柔软变形的沙发上取瓶子的任务中,DoggyBot的方法实现了60%的成功率,接近于遥操作。该任务也展示了我们学习的控制器在柔软可变形表面上行走的稳健性
  3. 在地面+球任务中,涉及更简单的导航和在平坦地形上的抓取任务中,DoggyBot达到了70%的成功率,表现优于所有基准和远程操作
  4. 在平均完成时间方面,我们的系统始终优于基准,完成任务的速度比Go2默认方法和无跟踪方法都要快
    值得注意的是,DoggyBot在速度上也超过了远程操作,尤其是在“地面+球体”任务中,DoggyBot平均用时23秒,而远程操作则为38秒
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐