当智能醒于物理世界,英伟达副总裁: 下一个十年属于物理AI!

发布时间:2025-09-10 13:15  浏览量:2

编辑:编辑部

【新智元导读】AGI从未如此逼近——新天终启,万象智生。在新智元十年峰会上,NVIDIA副总裁分享了下一个十年的AI浪潮:新的数据基础设施、新的算力层次、新的千亿级市场,物理AI正在铺开。

当全世界的目光还聚焦在大语言模型和AI智能体的竞赛时,英伟达已经将视线投向了更宏大战场——物理世界

我们所熟知的人工智能,至今更多存在于数字世界中:生成文字、图片、代码,进行搜索和推荐。

然而,AI的「终极形态」,必然要走向现实,与真实环境互动!

在「新智元十周年峰会」上,NVIDIA工程和解决方案副总裁赖俊杰,向外界系统地揭示了公司的下一个十年战略核心:物理AI (Physical AI)

这不仅是继「生成式AI」和「智能体AI」之后的下一波浪潮,更是一个旨在彻底解放人类生产力,重塑未来生活方式的宏伟蓝图。

这,是一个要把真实地球装进GPU的时代!

英伟达为什么在今天把筹码压向现实世界?

线索藏在九年前的一次英伟达和新智元的对话里。

黄仁勋(右)接受新智元创始人杨静采访并合影

当时,黄仁勋就看到了AI对GPU的强劲需求,并对AI做出判断:具有常识的机器会很快出现。

但对于类似于人类的通用的人工智能,是否会在10—15年内实现,他仍不确定。

今年7月,黄仁勋再访北京,接受了国内外媒体采访。在现场,新智元有幸采访了黄仁勋。这次,黄仁勋改变了9年前对AGI的看法:

根据我所理解的AGI定义,目前已有很多很好的想法,可能会在不远的将来引向通用人工智能。

2025年,黄仁勋和新智元创始人杨静女士合影(上方左);在新智元创始人杨静女士背后,黄仁勋在签名(上方右);黄仁勋签名(下方)

这也是新智元十周年峰会参会嘉宾的共同感受——

过去10年,是AI奇迹的10年。现在,人类前所未有地接近AGI。

AI在指数级发展,正如《2025新智元ASI前沿趋势报告》所言:

过去6年,AI智能体独立完成人类任务的时长能力,始终以约7个月翻一番的速度指数级增长。

最新的GPT-5模型,在软件工程任务上的「50%成功率时间视域」,已达2小时17分钟。

到2027年末,AI智能体将能独立执行需要人类耗时几天乃至数周的项目。届时,ASI的曙光将冲破云霄,一个恢弘的智能新纪元将正式开启。

今年,OpenAI已发布了三大智能体——Operator、Deep Research、Codex。

据称,DeepSeek的下一个大动作也是高阶智能体,力争年底发布相关更新。

智能体让模型从会答变成会做,门槛是可靠性与工具链整合。

但英伟达的视野已经越过了智能体乃至Agentic AI,他们开始布局下一波AI浪潮——物理AI。

在「新智元十周年峰会」上,NVIDIA工程和解决方案副总裁赖俊杰分享了对AI未来的行业判断。

算力大爆发

2012年,AlexNet横空出世。

之后,深度神经网络席卷学术界工业界,深度学习引爆AI研究范式转移:

无数研究者开始下定决心,全力投入到以深度神经网络为代表的深度学习技术。

很快,许多落地了一批场景与应用:语音、视觉、图像、搜索……

2013年,赖俊杰加入英伟达。

他见证了AI史上这波浪潮,英伟达迎来新的算力需求大爆发。

之前,英伟达已经开发了CUDA,但GPU等算力主要用于科学计算、生物、化学、天体物理等等任务。

一般的客户也就买几块、几十块GPU;如果能买上几百块GPU,那就是真正意义上是大客户。

但2014年,百度一家就买下了英伟达1000块GPU。

第一次听到这个消息的时候,赖俊杰感到吃惊。

而现在,xAI旗下的数据中心Colossus已配备了20万块GPU。

只有如此的算力,才足够支持GenAI进入千家万户。

LLM迎来了爆发,带来了很多生产力工具。

今天,大家已经非常习惯于用自然语言去跟数字世界的大模型进行交互,来生成图像、视频、文本等等。

对于游戏发烧级玩家而言,可能没有想到游戏渲染新技术DLSS也得益于AI的发展。

AI改变了太多。

但到今天为止,大家接触最多的人工智能还只存在于数字世界中:各种各样的图像、语音搜索、广告推荐等等,

英伟达认为,「物理AI」是继Agentic AI后的下一代AI浪潮。

赖俊杰重点分享了英伟达的物理AI战略构想。

AI的下一代浪潮

机遇与挑战

回到物理AI,它被视为接下来人工智能发展的重要方向。

所谓的物理AI,就是与现实的物理世界交互的AI。

物理AI意味着物理AI驱动的自主机器,可以与周遭的物理世界交互,理解真实世界,采取各种各样的行动。

不同的物理AI自主机器,大家的期望也有所不同。

比如,工业的机械臂,大家只是期望它在固定位置上,可以进行抓取和叉装这些精细的小动作。

而智能驾驶汽车,大家则希望它理解各种各样复杂的路况,并且需要掌握像转向、变道、加速、刹车等等技能。

最具挑战性的是人形机器人,我们对它的期望是

在基本所有人类涉足的复杂场景里,它都能做出各种各样复杂的动作。

物理AI要想取得成功的话,其实面临着非常大的挑战。

因为人工智能的模型和算法驱动机器,与现实的世界交互。

如果算法和模型没有经过充分验证,或者说它的安全措施不到位的话,就可能对我们周遭的物理环境,甚至是人本身产生伤害。

而要开发安全鲁棒的物理AI ,另一大挑战是数据要求更高。

物理AI需要的高质量数据,以及在一些极端场景数据非常难以去采集。

极端场景稀缺——但恰是鲁棒性关键。

比如说车前突然出现了车辆或其他障碍物,类似于这样危险的数据的话还是比较稀少的。

此外,物理AI的测试与验证,成本体量非常的高,人力、物力等投入非常大。

而且物理AI需要的数据难以拓展,受到物理现实的直接制约。

比如说,现在是夏秋之交,想要测试冰雪环境下自动驾驶算法,很难甚至可以说基本不可能。

要实现安全可靠的AI,不止需要传统LLM训练需要的算力平台集群之外,或者部署平台需要的一些计算平台。

我们还需要第三类计算的基础设施。

把地球装进GPU

在第三类计算基础设施之内,实际上就是把现实的物理世界,非常逼真地还原到虚拟世界中。

然后,在这样的虚拟世界中,对物理AI算法进行测试、验证、仿真等等。

但为什么要在虚拟世界中做物理AI?最大的好处是什么呢?

首先,它非常的容易扩展scale。

现实测试从一台车拓展到10台车,拓展到100台车,不是特别容易,但是在数据中心里面放1台机器, 10 台机器、 100台机器、 1,000台机器,就相对容易拓展。

而且在虚拟世界中,更容易摆脱时空的限制。

比如,在虚拟世界中,夏天测试自动驾驶算法在冰雪环境下的表现就相对容易。

这就是英伟达对物理AI的核心思路想法。

为了应对物理AI各种各样的一些挑战,为了更好能够去测试、验证、训练模型,英伟达今年年初开源了Cosmos世界基础模型。

开源方案覆盖预训练、后训练、微调等全流程,而且可以免费商用;目前,已下载200多万次

加速物理AI

英伟达开源三大模型

世界基础模型Cosmos包含三类模型:

Predict:未来世界状态的生成模型;

Transfer:照片真实集的增强模型;

Reason:针对物理世界的推理模型。

Predict模型的输入是当前的世界状态,或者说可以认为是一个起始的图像帧,用文字的方式去描述希望接下来这个世界发生的事件。

许多自主机器人配备多相机;将相机位姿与位移等信息输入后,即可生成对应输出。

比如,相机控制,在虚拟世界中告诉模型你要向左向右,向前向后做移动,就可以在虚拟世界中产生这样一些视频图像。

很多自主机器尤其像智能驾驶汽车经常有多个传感器或者多个相机,Predict模型支持同时生成六个不同位置的汽车上的相机所对应的视频。

第二类是Transfer模型。

它的输入有很多类,包括分割图,包括激光雷达的点云,或者说高清地图,还有表示各种各样物体移动信息的bounding box,把这些综合上你的指令prompt,输入Transfer模型,就可以生成下面右边的视频。

第一眼看过去,脑子里面有一个疑问,这些有什么用呢?

其中一类用法,把它当成生成式仿真工具,拿一段原始真实的视频,从中提取出它对应的世界状态。

比如说高清地图,还有bounding box,把这些信息结合prompt输入进去,你可以得到从原始视频转换来不同条件所对应的视频,比如不同光照条件下、气候条件下,甚至包括火灾情况下的新的视频。

另外,值得一提,中间的这个视频也非常重要:对世界状态做一些编辑。

而上文提到过训练安全鲁棒的算法,其中一个挑战是极端情况的数据非常难得。

解决思路:人为注入极端要素(如突然有动物穿越车前),生成对应视频,用于验证算法的鲁棒性——

这正是高性能Transfer的价值

接下来的一段视频,让大家更好地去理解一下现在它能达到的效果。

最后,推理模型Cosmos Reason。

它的输入也是一段视频, 进入视觉编码器生成token,再结合文字的prompt输入到大语言模型里面,进行思维链的计算,最后输出。

Cosmos Reason应用领域非常多。

比如做质检的企业,拿它做视频的标注,或者视频的判断,包括对于模型做直接的微调之后,甚至可以直接去作为机器人VLA(Vision Language Action)的模型。

人工智能已经在数字世界取得非常大的成功,深刻地改变了日常的生活与工作的习惯,并正加速进入物理世界。

最后,赖俊杰再次强调:

为了能够训练与开发出来鲁棒的模型、算法,

为了能够让这些AI算法对真实的物理世界、对人类足够安全,

NVIDIA开发开源了Cosmos世界基础模型。

展望未来十年,英伟达相信在物理世界,物理AI的应用必将取得非常实质性的进步,进一步解放人类的生产力。