直击CoRL|跨越“Sim-to-Real”天堑 NVIDIA解锁物理AI全景图
发布时间:2025-09-30 16:25 浏览量:1
具身智能,一直在等待它的“iPhone时刻”。
相比之下,LLMs成功的关键前提是,其训练数据基于整个互联网——几乎取之不尽、用之不竭。人类数千年的知识、文化、对话,都以文本和图片的形式沉淀在网络上,为模型提供了丰富的养料。
但是,物理AI(Physical AI)所面临的,是一个完全不同的真实世界。
01 具身智能的“Sim-to-Real Gap”
如何将具身智能从受控环境下的“牵线木偶”,转化为能够在不可预测的真实世界中自主感知、学习和决策的“物理人工智能”,一直是智能机器人研究中的核心命题。
在这一过程中,长期存在几类根本性挑战:
其一是数据稀缺。一般而言,构建高性能AI模型依赖大规模、多样化的训练数据。LLMs处理的是比特(bits),是符号和模式的重组。
然而,对于物理AI而言,获取真实世界的交互数据不仅成本高昂、效率低下,且存在不可忽略的安全风险。
比如,要训练机器人掌握精细操作技能,如“轻拿轻放”这个动作,不可能让机器人“反复打碎玻璃杯”的方式来训练。所以,物理世界的数据稀缺性(data sparsity)也直接制约了机器人智能的可扩展性和泛化能力。
其二是仿真的偏差。面对现实数据获取难的问题,仿真训练是业界公认的解决方案。通过高保真的物理仿真环境(physics-based simulation)进行强化学习或模仿学习,机器人能够在虚拟环境中快速迭代策略。
然而,仿真与现实之间总存在不可忽视的差异。微小的物理参数偏差、传感器噪声建模的不精确、材料交互动力学的复杂性等因素,将导致在仿真中表现优异的策略在现实场景中失效。
而如何有效缩小“Sim-to-Real Gap”,业界引入了领域自适应方法(domain adaptation)、随机化技术(domain randomization),以及现实数据微调(real-world fine-tuning)等,已成为物理AI能否成功落地的关键问题。
其三是推理与训练的“割裂”。机器人的智能系统往往呈现训练与推理的异构分布。
具体而言,模型训练依赖云端高性能计算资源,而推理与决策必须在机器人本体的边缘设备(Edge device)上实时完成。
这种“训练-推理”的分离涉及计算平台和网络延迟的问题,也涉及软件栈、数据表示,以及算法优化的不一致性问题,从而使得开发流程高度复杂,迭代周期延长,并在一定程度上限制了物理AI在动态环境中的自适应能力。
其四是从“感知”到“推理”的“认知差”。传统的机器人AI擅长感知,比如识别“这是一个苹果”。但通用机器人需要的是更高层次的推理能力——“这是一个苹果,看起来很熟,我应该用多大的力气拿起它才不会捏坏?”,然后将其分解为一系列可执行的物理动作。这要求AI具备常识、物理知识和任务规划能力。
近日,NVIDIA在CoRL上的一系列发布,正是对这四大挑战的正面回应。
02 开源物理引擎Newton 解锁物理AI“第一性原理”
如果说仿真是通往具身智能的必由之路,那么物理引擎就是这条路的“路基”。
诚然,不准确、不高效的物理引擎,会让模拟世界与现实世界产生巨大的“Sim-to-Real Gap”,所有训练都将出现偏差。而此次,NVIDIA发布的Newton物理引擎,正是夯实这一“路基”的举措。
Newton的出身“不凡”,其由谷歌DeepMind、迪士尼研究院和NVIDIA共同开发。这本身就代表了学术界和工业界最顶尖力量的融合。技术内核上看,Newton的特性,精准地指向了当下的痛点:
一方面,基于NVIDIA Warp和OpenUSD框架构建,充分利用了其最擅长的并行计算能力,解决了传统CPU物理引擎在处理大规模、复杂场景时的性能瓶颈。
截取自NVIDIA官网
另一方面,可微分(Differentiable)是Newton的关键特性,意味着机器人可以通过“试错(trial and error)”来进行“学习”。举例说,当机器人的某个动作不准确时,可微分的物理引擎便可以计算出“梯度”,告诉模型应该如何调整动作参数才能得到更好的结果,从而极大加速强化学习等训练过程。
Newton还具备灵活且可扩展(Flexible and extensible),支持多种类型的求解器(solvers)协同工作,能够模拟极其复杂的机器人行为,比如在雪地或碎石上行走,或是处理杯子和水果这类需要精细力控制的物体。
整体上看,Newton针对机器人进行了“从头到脚”的赋能,其目标便是为具身智能的“世界观”,提供一套坚实可靠的“物理定律”。
更重要的是,Newton是一个开源项目,并交由Linux基金会管理。
这种通过将Newton交由中立的基金会管理的方式,或许也在传递一个的信号,NVIDIA正在构建行业标准,以及开放的基础设施。这极大地降低了开发者和研究机构的采纳门槛,旨在形成强大的网络效应,让Newton成为机器人仿真领域事实上的“地心引力”。
03 “三位一体”:Cosmos触达世界 、GR00T启迪智慧,Isaac Lab练习复杂交互
具身智能有了可靠的物理基础,下一步就是创造能在其中学习和行动的“智能体”。NVIDIA为此更新了两类核心模型——作为“世界灵魂”的Cosmos世界基础模型,和作为“机器人大脑”的GR00T机器人基础模型。
截取自NVIDIA官网
Cosmos此次更新的是Cosmos Predict 2.5和Cosmos Transfer 2.5版本,在数据生成闭环中承担关键角色。
Cosmos Predict 2.5可根据初始状态,预测未来状态,生成长达30秒的视频。更重要的是,其将原先的三个独立模型统一成一个,从而降低训练的复杂度和计算成本,同时支持多视角输出。
这意味着,其可以为拥有多个传感器的机器人,生成高度逼真、时空一致的仿真数据流。这对于训练端到端的感知-决策模型至关重要。
相比而言,Cosmos Transfer 2.5可以理解为“世界风格迁移”的模型。能够根据真实的3D仿真场景和空间控制输入,比如深度信息、分割数据、边缘信息和高清地图等,生成逼真的合成数据,甚至能将仿真器生成的数据,渲染成带有真实世界纹理、光照、噪声等特征数据,也就是“Sim-to-Real”的风格转换。
而同时,相比上一代模型,其生成结果速度更快、质量更高,而模型体积缩小了3.5倍。这能有效缩小仿真数据与真实数据的“域差距”(Domain Gap),让模型在仿真环境中训练后,能更好地泛化到现实世界。
Cosmos两大模型的协同,构成了一个强大的合成数据生成流水线(Synthetic Data Pipeline)。开发者不再需要完全依赖真实数据,而是可以通过文本、图像或视频提示,大规模、低成本地生成多样化、准确的训练数据,从而有效解决数据挑战。
如果说Cosmos负责构建训练环境,那么Isaac GR00T N1.6就是被训练的主体,是连接感知和行动的桥梁。
Isaac GR00T N1.6的升级核心体现在两个方面。
一方面,集成了NVIDIA Cosmos™ Reason(以下称“Cosmos Reason”)作为“长时思考大脑”。Cosmos Reason是专为物理AI设计、开放且可定制的视觉语言模型(VLM),在 Hugging Face 的物理推理排行榜上位居榜首,下载量已超过百万。它的能力在于将人类模糊而抽象的高层指令(如“把桌子收拾干净”),拆解为一系列可执行的具体动作步骤。通过注入先验知识(prior knowledge)和常识(common sense),它让机器人具备了初步的推理与规划能力。
另一方面,Isaac GR00T N1.6显著增强了 多任务协同能力。新版本允许人形机器人在移动的同时操控物体(move and handle objects simultaneously),并赋予躯干与手臂更大的自由度,以完成诸如“推开一扇沉重的门”这样的复杂任务。
通过将强大的推理模型(Cosmos Reason)与多模态行为模型(GR00T)深度结合,NVIDIA 正在打造出既能“理解”又能“行动”的机器人大脑,能执行预设程序,也能在陌生环境中依靠常识进行推理和泛化,从而适应更广泛的现实场景。
Cosmos与Isaac GR00T,构建的是“理解与行动”的核心智能,那么基于 NVIDIA Omniverse构建的开发者预览版 NVIDIA Isaac Lab 2.3新增了灵巧抓取工作流,则提供了让这些智能真正落地的训练场与加速器。
截取自NVIDIA官网
在 Isaac Lab 2.3 中,NVIDIA 推出了“灵巧抓取”工作流,并给出可复现的“how-to”级解决方案。其核心机制是自动化课程学习(automated curriculum)——机器人不再依赖人工设计的固定训练集,而是从最基础的抓取动作入手,任务难度随训练过程逐步递增。
截取自Github
这种渐进式学习路径,使机器人能够在不确定性的现实场景中,逐步习得更稳健的操作技能。
目前,波士顿动力的 Atlas 机器人正是借助这一工作流,在复杂环境下显著提升了操控能力,成为具备“灯塔效应”的行业示范。
与之相辅,为了让开发者无需从零构建系统,即可在仿真环境中开展复杂、大规模的评估,NVIDIA 与光轮智能联合开发了 NVIDIA Isaac Lab Arena——这是一个用于大规模实验和标准化测试的开源策略评估框架,该框架即将推出。
长期以来,机器人测试普遍面临“碎片化、过度简化”的困境,具体来说,不同算法往往在各自孤立的环境中验证,缺乏横向可比性。NVIDIA Isaac Lab Arena的贡献在于提供一个标准化、复杂化的“竞技场”,使研究者能够在统一条件下对算法进行公平对比与大规模实验。此举一方面降低了行业重复性验证的成本,更为技术进步的度量和基准的建立提供了客观基础。
04 “三台计算机”贯通物理AI“闭环”
模型和软件的更新,也要基于坚实的基础设施之上。
DGX/HGX Blackwell是机器人大脑的“铸造厂”。训练GR00T等模型,需要海量的计算资源。NVIDIA最新的GB200 NVL72机架级系统,集成了36个Grace CPU和72个Blackwell GPU,正是为此类大规模训练任务而打造。
RTX PRO Blackwell是机器人身体和技能的“健身房”与“考场”。运行Newton物理引擎,生成Cosmos合成数据,都需要强大的图形渲染和模拟计算能力。NVIDIA RTX PRO服务器为此提供了统一架构,能让成千上万个虚拟机器人在数百万个场景中进行24/7不间断的训练和测试,其效率和规模远非物理训练所能比拟。
Jetson Thor Blackwell端侧大脑是机器人最终进入现实世界的“躯体”。训练好的模型,必须部署在一个功耗、体积和成本都具备优势的端侧设备上。NVIDIA Jetson Thor,搭载了Blackwell GPU,能提供足够的AI性能,来实时运行包括Isaac GR00T和Cosmos在内的最新模型,可实现实时的多AI工作流和智能交互。
作为NVIDIA “三台计算机”战略的重要组成,DGX/HGX负责模型训练,AGX/Jetson Thor承担边缘部署与数据采集,而RTX PRO配合Omniverse与Isaac Sim则构成仿真与验证环境。三者之间首次形成了完整的价值闭环。
Jetson Thor在真实物理世界中采集长尾与极端案例数据,将这些数据回传至云端,由DGX/HGX集群对Isaac GR00T模型进行再训练和微调,更新后的模型在RTX PRO驱动的Omniverse/Isaac Sim中进行大规模安全验证与仿真测试,通过验证的模型再被下发至Jetson Thor,实现机器人在现实世界的性能迭代与进化。
这一闭环,实际上就是NVIDIA试图为物理AI与机器人行业打造的“操作系统”。
“如今,从事物理AI或机器人研发的公司基本普遍采用了NVIDIA 的“三台计算机”方案,至少会使用其中一台设备,在多数情况下会同时使用两台,而在一些核心研发或大型项目中,更有可能三台设备全链路部署。”一位行业从业者这样说。
05 写在最后:物理AI时代的“End of the Beginning”
丘吉尔在评价阿拉曼战役的胜利时说:“这不是结束,甚至不是结束的开始。但它可能是开始的结束。”
NVIDIA最新的系列发布,对于具身智能领域而言,或许正是这样一个“开始的结束”的时刻。其结束了机器人研发各自为战、缺乏统一工具链和平台的“手工作坊”时代,开启了以基础模型为“大脑”、以物理仿真为“摇篮”、以“端到端计算平台”为“躯干”的具身智能开发新范式。
其实,NVIDIA联合合作伙伴打开的战略布局,已然非常清晰:
1.定义问题:聚焦具身智能最核心的数据和仿真难题。
2.提供基建: 通过开源Newton和提供强大的仿真平台,成为物理世界的制定“规则”。
3.赋予智能:通过Isaac GR00T和Cosmos,提供可定制、可进化的机器人“灵魂”。
4.锁定平台:通过“三台计算机”的基础设施闭环,对开发工作流进行加持。
当然,“Sim-to-Real”的鸿沟短期内无法完全填平——现实世界的不可预测性和硬件成本,远超想象。但是,NVIDIA 已联合业界的伙伴,为这场长期征途,绘制出详尽的路线图。