首个零样本跨本体泛化开源具身模型:智源RoboBrain-X0 技术细节全解析

发布时间:2025-09-29 15:08  浏览量:1

机器之心发布

机器之心编辑部

为具身智能行业提供了一个可复用、可扩展的通用基座,同时开源训练数据集。

今天,北京智源人工智能研究院(BAAI)正式开源 RoboBrain-X0,一个能够在零样本泛化、轻量微调条件下,驱动多种不同真实机器人完成复杂任务的具身智能基座大模型。其核心突破在于:用统一的动作空间与分层任务拆解,实现了「一个基座模型,N种身体」,为通用具身智能提供一条切实可行的路径。

RoboBrain-X0 源自 RoboBrain 的多模态基座能力,在 RoboBrain 2.0 数据基础上,进一步融合了真实机器人动作数据。通过统一建模视觉、语言与动作,它实现了跨本体的泛化与适配,具备从感知到执行的一体化能力。

据智源团队公开的评测,RoboBrain-X0 在多个主流机器人本体上的真机实验显示:

零样本迁移能力突出:仅靠统一预训练,模型即能在不同本体完成pick&place等任务,指令跟随与场景切换表现稳定。

小样本微调效应显著:在每个任务/域仅提供50条样本的微调情况下,RoboBrain-X0 的泛化表现已超过行业主流基线(如π0),尤其在混合本体、复杂场景下,少量微调即可具备针对复杂目标任务的拆解和执行能力,展现出远高于传统模型的数据效率和迁移性。

控制一致性强:不同本体在执行同一高层任务时,生成的动作原语序列高度一致,实际物理执行表现可靠。

这些结果意味着,RoboBrain-X0 不仅是理论上的「通用基座」,而且已在工程实践中迈出了从单点突破到规模化落地的关键一步。

作为新一代跨本体基座大模型,RoboBrain-X0 突破对单一机器人体系的依赖,实现异构本体统一建模,并具备实用级 zero-shot pick&place 泛化能力与轻量微调下的复杂任务拆解能力。

RoboBrain-X0 Github 地址:

RoboBrain-X0多芯片版本地址FlagRelease:

核心训练数据集:

RoboBrain 2.0 技术文档:

本体泛化困境:

通用具身智能的核心阻碍

随着机器人逐步走出实验室,走进家庭、工厂、公共空间,行业也面临着一个日益突出的难题:尽管模型在单一机器人上的能力日新月异,但这种智能却像一座座孤岛,难以迁移和扩展。

问题的根源在于,当前主流模型普遍采用在单一本体上端到端训练的范式。然而,不同品牌、不同结构的机器人,其动作空间、自由度和动力学特性千差万别,导致模型的智能被其物理载体(Embodiment)牢牢「锁死」。

即便有了一个很好的具身大脑模型,每适配一种新硬件,都需要重新收集数据进行微调,更深层次上,这种模式还造成了严重的数据壁垒,不同本体间的数据难以复用,难以形成类似大语言模型领域的「数据飞轮」效应。

打破「本体枷锁」,让智能在不同物理形态间无缝流转,已成为整个领域从单点炫技迈向全面普惠的决定性关隘。

实现「语义一致、控制一致、执行一致」

三层对齐

面对这一制约,智源研究团队的思路是,将一个高度依赖硬件的控制问题,转化为了一个本体无关、直接描述物理世界交互的目标问题。

第一步,是统一「动作空间」

RoboBrain-X0 将不同类型机器人(无论是机械臂、移动底盘还是双臂系统)的控制信号,全部映射到同一个动作空间,即末端执行器(End-Effector,EE)在三维空间中的位姿(位置与姿态)。这一抽象方式,直接跨越了各类机器人在自由度、结构定义上的巨大差异,无论底层关节、驱动方式如何变化,所有本体在 RoboBrain-X0 看来,都在用同一种「动作语言」进行感知、学习与协作。

其次,是离散化「动作词汇」

智源团队进一步引入「动作Tokenizer」机制,将原本连续且高维的物理操作轨迹,离散成一组可迁移的动作原语token。这些token基于分组残差量化(GRVQ),分别对位置、旋转、夹爪等多个维度进行压缩和抽象。这样,原本冗长复杂的控制指令被浓缩为简明的token序列,模型能够用更少的计算资源表达长时序行为,大幅提升训练与推理效率,并增强了长时控制的稳定性。

最终,RoboBrain-X0 实现了跨本体的知识和能力共享

机械臂、移动底盘、双臂系统等不同本体都能共享同一套操作原语,模型可以在不同类型机器人采集的数据上进行「混合本体数据训练」,并从中抽取出具备普适性的物理知识与操作策略。过去难以迁移的跨本体能力,如今有了工程化落地的可能。

分层规划与推理:

让「意图到动作」可泛化、可迁移

RoboBrain-X0 的另一项关键创新,是将「语言到动作」这一长期困扰具身智能的难题,拆解为分层、可解释的推理链路。通过模拟人类的分步决策过程,让复杂任务的理解与执行变得更加高效、易于泛化。

高层:意图解析与任务分解。模型首先读取自然语言指令(如「把苹果放进篮子里」),理解整体目标,并自动分解为一系列语义明确的子任务(如「找到苹果」「拿起苹果」「放进篮子」)。

中层:动作原语推理。每个子任务进一步被转化为动作原语token序列。这些token代表「接近」、「抓取」、「放置」等可迁移的基础操作,成为具身智能跨本体泛化的关键「词汇」。

底层:控制信号解码。最终,动作原语token被解码为具体的底层控制信号,如增量末端位姿和夹爪开合指令。这一层将抽象的意图转化为各类本体可直接执行的物理操作。

在训练阶段,团队采用分阶段、多模态的数据策略:

第一步,通过大规模视频+语言数据(无动作配对)强化模型的空间理解与语义规划能力;

第二步,逐步引入动作轨迹配对数据,建立从任务语义到物理控制的精准映射;

第三步,针对遮挡、干扰、新物体等现实难题,用小样本微调实现定向强化与快速适应。

推理时,模型同样先完成高层的任务拆解与子任务链生成,再通过动作Tokenizer,将抽象的动作序列稳定映射为不同本体可执行的控制信号。每一级推理都受到专门的数据监督和一致性约束,确保模型在异构机器人、复杂场景下都能输出语义一致、行为稳定的策略。 这一机制不仅极大提升了模型的泛化能力,也大幅缩短了新任务、新环境的适应周期。

不止模型,

同步开源核心训练数据集

RoboBrain-X0 卓越跨本体能力的背后,是坚实的数据基础。伴随此次模型开源,智源同步向全球开放了其核心训练数据集 RoboBrain-X0-Dataset。

该数据集的构建,旨在系统性地赋予模型两大核心能力:

从通用感知到具身理解的数据:这一部分旨在让模型「看懂」并「思考」物理世界。它在传统的视觉问答(VQA)与推理数据之上,大量扩展了与物理交互强相关的任务,如物体 affordance 查询(物体可以被如何操作)、轨迹生成和动作规划。这些数据由开源成果与真实机器人采集共同组成,帮助 RoboBrain-X0 建立起从通用视觉语言到特定具身场景空间理解的桥梁。

从多样化动作到泛化技能的数据:这是实现跨本体泛化的核心。智源团队整合了多源数据,形成了一个层次丰富的动作知识库。首先,它引入了如 Agibot World 等高质量的开源动作数据作为基础。其次,团队通过与松灵、星海图等厂商深度合作,同时结合自采,构建了一套体系化的真实数据采集与标注流程。这批数据不仅包含了直接的「指令-动作」对,还创新性地加入了「指令-子任务推理-动作」的样本,专门用于训练模型的长程任务分解、进度感知与动态决策能力。

该数据集的开源不仅在于提供数据本身,「所有数据均经过统一格式化与严格的质量控制,供研究者开箱即用」,智源团队表示,「同时,我们也希望为社区提供一个可复现、可比较的跨设备评测基准,帮助推动具身方法论的快速迭代与对齐,最终加速具身智能技术从实验室走向产业应用的进程」。