端到端 VLA 并非唯一解:分层推理的具身基础模型 RoBridge 破解机器人「知行合一」难题

发布时间:2025-05-19 21:37  浏览量:2

RoBridge 在显著降低训练成本的同时,显著提升开放式任务的操作鲁棒性,为破解机器人「知行合一」难题提供了可扩展的技术路径。

作者丨梁小丹、林倞

由中山大学、鹏城实验室、拓元智慧等单位携手推出的分层推理具身基础模型RoBridge,在保持VLM语义理解优势的同时,成功将强化学习的过程技能成功率提升至新高度,模型框架已经开源。

在开放式场景的机器人操作研究中,传统端到端视觉语言动作(VLA)模型虽能实现指令理解与动作输出的直接映射,却面临训练成本高昂(通常需要数十张GPU数周训练)、认知与执行割裂等根本性缺陷。针对这一核心问题,由梁小丹、林倞等知名学者提出的分层推理的具身基础模型RoBridge,仅需单张A100训练一天即可突破两大技术瓶颈:其创新设计的分层结构通过认知规划与物理执行的解耦,在保持VLM语义理解优势的同时,成功将强化学习的过程技能成功率提升至新高度。该架构由三级模块构成——基于视觉语言模型(VLM)的高级认知规划器(HCP)实现任务语义解析,不变可操作表示(IOR)构建符号化中间层,通用具身代理(GEA)负责物理执行。实验表明,RoBridge零样本泛化即可达成75%的新任务成功率,仅需5个真实样本即可实现模拟到现实(Sim2Real)的泛化成功率(83%),相较RDT、π0等基线模型提升超40%,为破解机器人"知行合一"难题提供了更高效可靠的解决方案。

论文:RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation

项目地址:https://abliao.github.io/RoBridge

1 背景:机器人操作技术的双重困境

机器人操作技术长期受限于两大瓶颈:

1. 1程序性技能困境。

为了获得根据指令操纵对象的能力,RDT和π0等VLA模型通常采用数据驱动的轨迹拟合方法。然而,当面对环境变化时,包括波动的照明条件、相机姿态偏差和环境变化,这些方法经常遭受灾难性的性能下降。强化学习虽然稳健,但具有试错性和低学习效率的特点,使其在实际环境中的适用性较低。

图1. 程序性技能方法、陈述性技能方法和RoBridge方法比较。

1.2 陈述性技能困境。

最近的工作将视觉语言模型 (VLM) 集成到机器人系统,如 ReKep和 OmniManip,它们使用多模态大模型来生成开放域任务的操作指令。虽然这些模型在理解方面表现出色,但它们缺乏具体经验,并且需要将输出限制为可执行动作。这种方法迫使语言模型在没有物理直觉的情况下处理时空推理,这通常会导致难以置信的任务规划。例如,在任务 “将块 A 放在块 B 上” 中,对空间的理解不足往往会导致这种方法产生致命缺陷的动作序列。

2 RoBridge框架

本文提出的RoBridge框架如图所示,主要包括三个核心组件:高层认知规划器(High-level Cognitive Planner, HCP)、不变可操作表示(Invariant Operable Representation, IOR)和通用具身智能体(Generalist Embodied Agent, GEA)。整体流程如下:首先,HCP根据观察信息和任务指令将复杂任务分解为多个原子动作;其次,针对每个原子动作,HPC结合基础模型生成IOR表示;最后,GEA基于该表示执行具体操作,整个过程通过闭环控制进行调节。各部分说明如下:

图2. RoBridge框架

(1)高层认知规划器(HCP)

HCP由视觉语言模型(如GPT-4o)和基础模型API(如GroundingDINO、SAM和Track-Anything)构成。给定当前RGB图像和指令,通过VLM将任务分解为若干原子动作,其中表示动作类型,为操作对象,为目标位置(可选)。如图示例中,任务被分解为抓取黄色圆柱体、移动至圆形插槽等四个原子动作。HCP通过基础模型API进行对象分割,并结合传感器数据生成IOR表示。

(2)不变可操作表示(IOR)

每个原子动作对应的IOR表示由四元组构成:

其中:Mi 包含夹爪、操作对象和目标的三视角掩膜 。Di 包含对应的一视角掩膜深度信息 。Ci 包含末端执行器位姿和运动方向约束

通过GroundingDINO和SAM实现对象分割,结合VLM进行对象选择。对于存在方向约束的任务(如打开抽屉),HCP提供归一化方向向量d∈R3在每个时间步 t 生成更新后的,通过策略函数映射为机械臂动作。针对“reach”类动作采用运动规划,其他复杂动作结合强化学习与模仿学习进行训练。

(4)闭环控制

采用双频更新机制:

- 高频控制:通过Track-Anything实时更新掩膜和深度

- 低频控制:结合GPT-4o和夹爪状态判断任务状态(成功/失败/正常),失败时重新生成。

3 通用具身智能体训练

如图所示,训练过程分为三个阶段:

图3. 通用具身智能体训练示意图。

(1)强化学习阶段

为每个任务训练专家策略,引入机械臂位姿、物体形状和相机偏移等领域的随机化以提升鲁棒性。

(2)模仿学习阶段

基于专家数据训练通用策略,输入为广义交互表示R。新增以下领域随机化:

1. 深度图增强:高斯偏移、模糊、随机掩膜

2. 掩膜增强:随机偏移、噪声注入

(3)持续技能聚合

采用改进的DAgger算法解决模仿学习的误差累积问题(算法1):

1. 初始化各任务权重为均等值

2. 定义分段函数将奖励映射为权重调整值

3. 迭代过程中动态调整任务采样频率,优先采集困难任务

4. 记录失败轨迹并由专家生成修正数据

4

实验

4.1 架构与训练

我们为每个任务单独训练强化学习专家策略,采用DRQ-v2算法进行训练。输入包含RGB图像、机器人本体感知和任务独热编码,输出低层级动作。通用智能体采用与DRQ-v2相同的网络架构,输入为不变可操作表示(IOR),其中原子动作采用独热编码表示。

4.2 硬件配置

真实实验采用Kinova Gen3机械臂,配置两个Realsense D435i相机:腕部相机提供第一视角,固定相机提供第三视角。 设计四类任务:(1)物体抓取, (2)平面清扫 ,(3)按钮按压, (4)抽屉开启。前两类测试未见物体,评估泛化能力。另设计多阶段积木插槽任务,评估长时程任务处理能力。

图4. RoBridge 在真实任务中表现卓越,适应真实复杂环境,展现良好泛化能力。

4.3 仿真基准

在Metaworld和Robosuite仿真环境中进行测试。Metaworld选取50个任务,在零样本泛化测试中35个用于训练,5个用于零样本测试任务。

4.4 基线方法

DRQ-v2:多任务强化学习基准

SayCan:基于LLM的技能规划

PSL/ManipGen:动作级技能库扩展方法

ReKep:关键点推理方法

RDT/π0系列:端到端扩散模型方法

4.5 仿真结果

下表显示在Metaworld基准测试中,RoBridge平均成功率82.12%,较最优基线提升11.28%。在背景/光照/色彩/视角变化下均表现最佳鲁棒性。

4.6真实场景结果

下表显示在真实任务中,RoBridge平均成功率83.3%,长时程任务平均完成阶段数3.0(表3)。可视化结果显示相比π0和ReKep,本方法能稳定处理复杂物理交互。

图5. 真实机器人实验

4.7 零样本任务泛化

下表显示在5个全新任务(物料分拣/物体取出/手柄按压/托盘滑动/清扫入库)中,RoBridge平均成功率75%,展现优异的零样本迁移能力。

5

总结

本文提出了RoBridge,一种基于分层认知架构的机器人操作基础模型,通过突破端到端VLA模型的瓶颈,以单张A100仅需1天训练的高效范式实现三大突破:其一,通过分离高层语义理解与底层物理控制,将VLM的开放场景认知优势与强化学习的精确操作能力深度融合;其二,创新引入不变可操作表示(IOR)作为符号化中间层,有效解决传统模型因跨模态特征错位导致的"脑手不一"问题;其三,零样本泛化即可达成75%的新任务成功率,仅需5个真实样本即可实现模拟到现实的泛化成功率(83%),相比RDT、π0等基线模型提升超40%。该架构通过高级认知规划器(HCP)、IOR符号桥梁和通用具身代理(GEA)的三级协同,在显著降低训练成本的同时,显著提升开放式任务的操作鲁棒性,为破解机器人"知行合一"难题提供了可扩展的技术路径。