刚刚,宇树宣布开源

发布时间:2025-09-16 21:03  浏览量:1

宇树宣布开源跨多类机器人本体的开源世界模型-动作架构UnifoLM-WMA-0。

作者 | 许丽思

编辑 | 漠影

机器人前瞻9月16日报道,昨天晚上,宇树宣布开源UnifoLM-WMA-0架构。这是宇树跨多类机器人本体的开源世界模型-动作架构,专为通用机器人学习而设计,其核心成分在于一个可以理解机器人与环境交互物理规律的世界模型。

该世界模型具备两大核心功能:一是仿真引擎,作为交互式仿真器运行,为机器人学习提供合成数据;二是策略增强,可与一个动作头进行对接,通过预测未来与物理世界的交互过程,进一步优化决策性能。

具体来说,包括:

微调视频生成模型:宇树会对Open-X数据集上的视频生成模型进行微调,使其生成能力适应机器人的工作场景。该模型将图像和文本指令作为输入,并以视频格式生成未来的交互。微调模型在测试集上的生成结果如下:

UnifoLM-WMA-0 架构:能使世界模型能够以两种模式运行,决策模式,预测有关未来物理交互的信息,以协助策略生成行动;仿真模式,根据机器人动作生成高保真环境反馈。

完整的系统架构及其工作流程如下:

UnifoLM-WMA-0 动作可控生成:宇树在五个开源数据集上训练了模型,测试结果表明,该模型作为仿真引擎,可以基于当前图像和一定数量的未来机器人动作实现交互式可控生成。生成结果与原始视频之间的比较如下所示:

UnifoLM-WMA-0 长期交互生成:该模型还具有对长期任务进行长期交互生成的能力。生成结果与原始视频之间的比较如下所示:

在实际应用中,采用该模型的机器人能够执行一系列复杂任务。

比如在执行把木块挨个按红黄绿的顺序叠放的任务时,机器人抓起木块两侧,还会注意微微调整角度和控制力度,让红色木块的底面和桌面上的特定区域对齐,黄色木块和绿色木块依次和下方木块的顶面对齐,避免堆叠倾斜。右上角的小窗口是世界模型对未来动作视频的预测。

在整理桌面上散落的橡皮和笔的场景中,机器人会先分辨物品的形态,然后面对盒子中的不同分区,机器人接着把橡皮放到右侧比较小的收纳空间中,把笔放到上方较大的空间中,最后再将盒子合上。

在执行把黑色小相机放进包装盒的任务时,机器人会先确定好放置的方向,然后将相机放进包装盒的凹槽中,最后再按特定方向盖上顶部盖子,表现出比较强的环境交互与预测能力。

宇树称,此次将UnifoLM-WMA-0完整开源并承诺持续更新,是希望为全球科研机构和行业伙伴提供一个强大的基础工具。通过开放这一核心技术,宇树邀请全行业共同参与,利用该架构探索通用机器人的更多可能性,以期能共同加速通用机器人真正走进现实世界的进程。

项目主页:https://unigen-x.github.io/unifolm-world-model-action.github.io/

开源代码网址:https://github.com/unitreerobotics/unifolm-world-model-action