北京人形机器人创新中心提出具身世界模型WoW

发布时间：2025-10-21 04:40 浏览量：8

本报讯（记者贾丽）继DeepSeek在大语言模型开源促进行业发展后，北京人形机器人创新中心（以下简称“北京人形”）再次打破边界并开源了全新的世界模型架构，提出了一个让机器人真正“看见、理解并行动于世界”的具身世界模型——WoW（World-Omniscient World Model），旨在帮助具身智能机器人快速学习掌握各项技能，助力行业打造“最好用”的机器人。一经发布，该模型便受到学术界和产业界的广泛关注。

据介绍，相较于Sora2，WoW具身世界模型在模拟机器人操作的时空一致性、物理推理能力方面表现更为出色。这不仅仅是一次视觉模型的升级，更是一个融合了视觉、动作、物理感知与推理的统一世界生成框架。它让AI不再只是“看视频”或“生成图像”，而是能通过交互学习世界的物理规律，实现在真实环境中的自主操作。如果说GPT系列让机器“读懂语言”，Sora系列是在“看世界”，那么WoW就是让机器人“理解物理世界”，并且给到算法触摸世界的双手。创新的技术架构、完全开源的策略、完整的工具支持，使得WoW有望成为世界模型领域的“DeepSeek”。

创新的技术架构体系

重新定义世界模型能力边界

北京人形提出了一个全新的多模态大模型框架，将世界生成、动作预测、视觉理解和自我反思融合为一个统一系统，成功解决传统架构物理一致性、因果推理和跨本体跨场景跨动作泛化方面的局限。

WoW是一个融合了感知、预测、判断、反思与行动五个环节的具身世界模型。它从真实的机器人交互数据中学习，能在已知与未知场景中生成高质量、物理一致的机器人视频，最终让想象中的动作真正落地于现实。

同时，WoW不是在记忆训练场景，而是在学习“物理规律的抽象本质”，具备跨机器人形态泛化、任务泛化、场景泛化全方位能力，这类“视觉+物理”的泛化能力，是通向具身智能的关键指标。

WoW具身世界模型遵循SOPHIA范式，让模型越看越准，越生成越真实。SOPHIA自反范式是指，业内首次提出SOPHIA框架，让世界模型“自己教自己”。

据了解，WoW具身世界模型可以实现视频生成和机器人动作闭环，意味着AI不再停留在“想象中”，而能真正“动手”去验证自己的理解，标志着真正实现从生成到执行的跨越。

北京人形提出了专测“物理一致性与因果推理”的新基准WoWBench，也是全球首个针对具身世界模型的综合基准，从四大核心维度评估模型能力——感知理解、预测推理、决策与规划、泛化执行，覆盖视觉保真与时间一致、指令理解与语义正确性、物理与因果推理、规划与任务分解等多个指标，采用混合评测机制（专家模型+GPT或精调VLM+人类专家）进行评分，确保模型表现与人类认知保持一致。

北京人形开源WoW具身世界模型部分模型权重，大大降低了世界模型研究的入门门槛，加速具身智能机器人走入生活方方面面。

应用前景广阔

实现从技术到产业的全面赋能

北京人形发布的WoW具身世界模型，以创新的技术架构，优越的性能表现以及开源开放合作赋能，助力具身智能机器人多场景落地。北京人形为世界模型研究提供统一的基准平台和可比较的评估体系，并将WoWBench基准和模型开源，加速研究进展，促进科研复现。

据介绍，产业应用层面，一方面WoW具身世界模型可以实现数据迁移与扩增，从少量真实数据出发，生成更多合成样本，完成“想象-生成-再标注-迁移”的自循环过程，让AI拥有“自我造数”能力。

另一方面，WoW具身世界模型可以从视觉“想象”中反推真实可执行的动作指令，可迁移真实机器人本体上执行抓取、装配等各类操作任务，使机器人具备了在复杂环境中自主理解与执行自然任务指令的能力。

此前，北京人形“具身天工Ultra”获得全球首个人形机器人半程马拉松冠军，并且采用“全自主”方式在首届世界人形机器人运动会，获得100米短跑项目的冠军，成为人形机器人史上首个百米“飞人”，充分展示其“最能跑”的领先技术实力；基于慧思开物平台下的具身大小脑协同，北京人形仅凭天轶2.0一款机器人，在首届世界人形机器人运动会一举斩获一金三银一铜的成绩。

本次WoW具身世界模型的开源，进一步展现了北京人形在大脑方面的领先实力，从理解世界到重建世界，WoW具身世界模型让我们看到人工智能真正成为具身智能体的未来，围绕“最能跑、最好用”的目标，北京人形机器人创新中心将持续开源开放，加速具身智能落地应用。

标签：人形机器人北京模型创新 wow

北京人形机器人创新中心提出具身世界模型WoW

相似文章

资讯分类

热门资讯

热门产品