北京人形机器人创新中心提出具身世界模型WoW

发布时间:2025-10-21 04:40  浏览量:1

本报讯 (记者贾丽)继DeepSeek在大语言模型开源促进行业发展后,北京人形机器人创新中心(以下简称“北京人形”)再次打破边界并开源了全新的世界模型架构,提出了一个让机器人真正“看见、理解并行动于世界”的具身世界模型——WoW(World-Omniscient World Model),旨在帮助具身智能机器人快速学习掌握各项技能,助力行业打造“最好用”的机器人。一经发布,该模型便受到学术界和产业界的广泛关注。

据介绍,相较于Sora2,WoW具身世界模型在模拟机器人操作的时空一致性、物理推理能力方面表现更为出色。这不仅仅是一次视觉模型的升级,更是一个融合了视觉、动作、物理感知与推理的统一世界生成框架。它让AI不再只是“看视频”或“生成图像”,而是能通过交互学习世界的物理规律,实现在真实环境中的自主操作。如果说GPT系列让机器“读懂语言”,Sora系列是在“看世界”,那么WoW就是让机器人“理解物理世界”,并且给到算法触摸世界的双手。创新的技术架构、完全开源的策略、完整的工具支持,使得WoW有望成为世界模型领域的“DeepSeek”。

创新的技术架构体系

重新定义世界模型能力边界

北京人形提出了一个全新的多模态大模型框架,将世界生成、动作预测、视觉理解和自我反思融合为一个统一系统,成功解决传统架构物理一致性、因果推理和跨本体跨场景跨动作泛化方面的局限。

WoW是一个融合了感知、预测、判断、反思与行动五个环节的具身世界模型。它从真实的机器人交互数据中学习,能在已知与未知场景中生成高质量、物理一致的机器人视频,最终让想象中的动作真正落地于现实。

同时,WoW不是在记忆训练场景,而是在学习“物理规律的抽象本质”,具备跨机器人形态泛化、任务泛化、场景泛化全方位能力,这类“视觉+物理”的泛化能力,是通向具身智能的关键指标。

WoW具身世界模型遵循SOPHIA范式,让模型越看越准,越生成越真实。SOPHIA自反范式是指,业内首次提出SOPHIA框架,让世界模型“自己教自己”。

据了解,WoW具身世界模型可以实现视频生成和机器人动作闭环,意味着AI不再停留在“想象中”,而能真正“动手”去验证自己的理解,标志着真正实现从生成到执行的跨越。

北京人形提出了专测“物理一致性与因果推理”的新基准WoWBench,也是全球首个针对具身世界模型的综合基准,从四大核心维度评估模型能力——感知理解、预测推理、决策与规划、泛化执行,覆盖视觉保真与时间一致、指令理解与语义正确性、物理与因果推理、规划与任务分解等多个指标,采用混合评测机制(专家模型+GPT或精调VLM+人类专家)进行评分,确保模型表现与人类认知保持一致。

北京人形开源WoW具身世界模型部分模型权重,大大降低了世界模型研究的入门门槛,加速具身智能机器人走入生活方方面面。

应用前景广阔

实现从技术到产业的全面赋能

北京人形发布的WoW具身世界模型,以创新的技术架构,优越的性能表现以及开源开放合作赋能,助力具身智能机器人多场景落地。北京人形为世界模型研究提供统一的基准平台和可比较的评估体系,并将WoWBench基准和模型开源,加速研究进展,促进科研复现。

据介绍,产业应用层面,一方面WoW具身世界模型可以实现数据迁移与扩增,从少量真实数据出发,生成更多合成样本,完成“想象-生成-再标注-迁移”的自循环过程,让AI拥有“自我造数”能力。

另一方面,WoW具身世界模型可以从视觉“想象”中反推真实可执行的动作指令,可迁移真实机器人本体上执行抓取、装配等各类操作任务,使机器人具备了在复杂环境中自主理解与执行自然任务指令的能力。

此前,北京人形“具身天工Ultra”获得全球首个人形机器人半程马拉松冠军,并且采用“全自主”方式在首届世界人形机器人运动会,获得100米短跑项目的冠军,成为人形机器人史上首个百米“飞人”,充分展示其“最能跑”的领先技术实力;基于慧思开物平台下的具身大小脑协同,北京人形仅凭天轶2.0一款机器人,在首届世界人形机器人运动会一举斩获一金三银一铜的成绩。

本次WoW具身世界模型的开源,进一步展现了北京人形在大脑方面的领先实力,从理解世界到重建世界,WoW具身世界模型让我们看到人工智能真正成为具身智能体的未来,围绕“最能跑、最好用”的目标,北京人形机器人创新中心将持续开源开放,加速具身智能落地应用。