当智能醒于物理世界,英伟达副总裁: 下一个十年属于物理AI!
发布时间:2025-09-10 13:15 浏览量:2
编辑:编辑部
【新智元导读】AGI从未如此逼近——新天终启,万象智生。在新智元十年峰会上,NVIDIA副总裁分享了下一个十年的AI浪潮:新的数据基础设施、新的算力层次、新的千亿级市场,物理AI正在铺开。
当全世界的目光还聚焦在大语言模型和AI智能体的竞赛时,英伟达已经将视线投向了更宏大战场——物理世界。
我们所熟知的人工智能,至今更多存在于数字世界中:生成文字、图片、代码,进行搜索和推荐。
然而,AI的「终极形态」,必然要走向现实,与真实环境互动!
在「新智元十周年峰会」上,NVIDIA工程和解决方案副总裁赖俊杰,向外界系统地揭示了公司的下一个十年战略核心:物理AI (Physical AI)。
这不仅是继「生成式AI」和「智能体AI」之后的下一波浪潮,更是一个旨在彻底解放人类生产力,重塑未来生活方式的宏伟蓝图。
这,是一个要把真实地球装进GPU的时代!
英伟达为什么在今天把筹码压向现实世界?
线索藏在九年前的一次英伟达和新智元的对话里。
黄仁勋(右)接受新智元创始人杨静采访并合影
当时,黄仁勋就看到了AI对GPU的强劲需求,并对AI做出判断:具有常识的机器会很快出现。
但对于类似于人类的通用的人工智能,是否会在10—15年内实现,他仍不确定。
今年7月,黄仁勋再访北京,接受了国内外媒体采访。在现场,新智元有幸采访了黄仁勋。这次,黄仁勋改变了9年前对AGI的看法:
根据我所理解的AGI定义,目前已有很多很好的想法,可能会在不远的将来引向通用人工智能。
2025年,黄仁勋和新智元创始人杨静女士合影(上方左);在新智元创始人杨静女士背后,黄仁勋在签名(上方右);黄仁勋签名(下方)
这也是新智元十周年峰会参会嘉宾的共同感受——
过去10年,是AI奇迹的10年。现在,人类前所未有地接近AGI。
AI在指数级发展,正如《2025新智元ASI前沿趋势报告》所言:
过去6年,AI智能体独立完成人类任务的时长能力,始终以约7个月翻一番的速度指数级增长。
最新的GPT-5模型,在软件工程任务上的「50%成功率时间视域」,已达2小时17分钟。
到2027年末,AI智能体将能独立执行需要人类耗时几天乃至数周的项目。届时,ASI的曙光将冲破云霄,一个恢弘的智能新纪元将正式开启。
今年,OpenAI已发布了三大智能体——Operator、Deep Research、Codex。
据称,DeepSeek的下一个大动作也是高阶智能体,力争年底发布相关更新。
智能体让模型从会答变成会做,门槛是可靠性与工具链整合。
但英伟达的视野已经越过了智能体乃至Agentic AI,他们开始布局下一波AI浪潮——物理AI。
在「新智元十周年峰会」上,NVIDIA工程和解决方案副总裁赖俊杰分享了对AI未来的行业判断。
算力大爆发
2012年,AlexNet横空出世。
之后,深度神经网络席卷学术界工业界,深度学习引爆AI研究范式转移:
无数研究者开始下定决心,全力投入到以深度神经网络为代表的深度学习技术。
很快,许多落地了一批场景与应用:语音、视觉、图像、搜索……
2013年,赖俊杰加入英伟达。
他见证了AI史上这波浪潮,英伟达迎来新的算力需求大爆发。
之前,英伟达已经开发了CUDA,但GPU等算力主要用于科学计算、生物、化学、天体物理等等任务。
一般的客户也就买几块、几十块GPU;如果能买上几百块GPU,那就是真正意义上是大客户。
但2014年,百度一家就买下了英伟达1000块GPU。
第一次听到这个消息的时候,赖俊杰感到吃惊。
而现在,xAI旗下的数据中心Colossus已配备了20万块GPU。
只有如此的算力,才足够支持GenAI进入千家万户。
LLM迎来了爆发,带来了很多生产力工具。
今天,大家已经非常习惯于用自然语言去跟数字世界的大模型进行交互,来生成图像、视频、文本等等。
对于游戏发烧级玩家而言,可能没有想到游戏渲染新技术DLSS也得益于AI的发展。
AI改变了太多。
但到今天为止,大家接触最多的人工智能还只存在于数字世界中:各种各样的图像、语音搜索、广告推荐等等,
英伟达认为,「物理AI」是继Agentic AI后的下一代AI浪潮。
赖俊杰重点分享了英伟达的物理AI战略构想。
AI的下一代浪潮
机遇与挑战
回到物理AI,它被视为接下来人工智能发展的重要方向。
所谓的物理AI,就是与现实的物理世界交互的AI。
物理AI意味着物理AI驱动的自主机器,可以与周遭的物理世界交互,理解真实世界,采取各种各样的行动。
不同的物理AI自主机器,大家的期望也有所不同。
比如,工业的机械臂,大家只是期望它在固定位置上,可以进行抓取和叉装这些精细的小动作。
而智能驾驶汽车,大家则希望它理解各种各样复杂的路况,并且需要掌握像转向、变道、加速、刹车等等技能。
最具挑战性的是人形机器人,我们对它的期望是
在基本所有人类涉足的复杂场景里,它都能做出各种各样复杂的动作。
物理AI要想取得成功的话,其实面临着非常大的挑战。
因为人工智能的模型和算法驱动机器,与现实的世界交互。
如果算法和模型没有经过充分验证,或者说它的安全措施不到位的话,就可能对我们周遭的物理环境,甚至是人本身产生伤害。
而要开发安全鲁棒的物理AI ,另一大挑战是数据要求更高。
物理AI需要的高质量数据,以及在一些极端场景数据非常难以去采集。
极端场景稀缺——但恰是鲁棒性关键。
比如说车前突然出现了车辆或其他障碍物,类似于这样危险的数据的话还是比较稀少的。
此外,物理AI的测试与验证,成本体量非常的高,人力、物力等投入非常大。
而且物理AI需要的数据难以拓展,受到物理现实的直接制约。
比如说,现在是夏秋之交,想要测试冰雪环境下自动驾驶算法,很难甚至可以说基本不可能。
要实现安全可靠的AI,不止需要传统LLM训练需要的算力平台集群之外,或者部署平台需要的一些计算平台。
我们还需要第三类计算的基础设施。
把地球装进GPU
在第三类计算基础设施之内,实际上就是把现实的物理世界,非常逼真地还原到虚拟世界中。
然后,在这样的虚拟世界中,对物理AI算法进行测试、验证、仿真等等。
但为什么要在虚拟世界中做物理AI?最大的好处是什么呢?
首先,它非常的容易扩展scale。
现实测试从一台车拓展到10台车,拓展到100台车,不是特别容易,但是在数据中心里面放1台机器, 10 台机器、 100台机器、 1,000台机器,就相对容易拓展。
而且在虚拟世界中,更容易摆脱时空的限制。
比如,在虚拟世界中,夏天测试自动驾驶算法在冰雪环境下的表现就相对容易。
这就是英伟达对物理AI的核心思路想法。
为了应对物理AI各种各样的一些挑战,为了更好能够去测试、验证、训练模型,英伟达今年年初开源了Cosmos世界基础模型。
开源方案覆盖预训练、后训练、微调等全流程,而且可以免费商用;目前,已下载200多万次
加速物理AI
英伟达开源三大模型
世界基础模型Cosmos包含三类模型:
Predict:未来世界状态的生成模型;
Transfer:照片真实集的增强模型;
Reason:针对物理世界的推理模型。
Predict模型的输入是当前的世界状态,或者说可以认为是一个起始的图像帧,用文字的方式去描述希望接下来这个世界发生的事件。
许多自主机器人配备多相机;将相机位姿与位移等信息输入后,即可生成对应输出。
比如,相机控制,在虚拟世界中告诉模型你要向左向右,向前向后做移动,就可以在虚拟世界中产生这样一些视频图像。
很多自主机器尤其像智能驾驶汽车经常有多个传感器或者多个相机,Predict模型支持同时生成六个不同位置的汽车上的相机所对应的视频。
第二类是Transfer模型。
它的输入有很多类,包括分割图,包括激光雷达的点云,或者说高清地图,还有表示各种各样物体移动信息的bounding box,把这些综合上你的指令prompt,输入Transfer模型,就可以生成下面右边的视频。
第一眼看过去,脑子里面有一个疑问,这些有什么用呢?
其中一类用法,把它当成生成式仿真工具,拿一段原始真实的视频,从中提取出它对应的世界状态。
比如说高清地图,还有bounding box,把这些信息结合prompt输入进去,你可以得到从原始视频转换来不同条件所对应的视频,比如不同光照条件下、气候条件下,甚至包括火灾情况下的新的视频。
另外,值得一提,中间的这个视频也非常重要:对世界状态做一些编辑。
而上文提到过训练安全鲁棒的算法,其中一个挑战是极端情况的数据非常难得。
解决思路:人为注入极端要素(如突然有动物穿越车前),生成对应视频,用于验证算法的鲁棒性——
这正是高性能Transfer的价值。
接下来的一段视频,让大家更好地去理解一下现在它能达到的效果。
最后,推理模型Cosmos Reason。
它的输入也是一段视频, 进入视觉编码器生成token,再结合文字的prompt输入到大语言模型里面,进行思维链的计算,最后输出。
Cosmos Reason应用领域非常多。
比如做质检的企业,拿它做视频的标注,或者视频的判断,包括对于模型做直接的微调之后,甚至可以直接去作为机器人VLA(Vision Language Action)的模型。
人工智能已经在数字世界取得非常大的成功,深刻地改变了日常的生活与工作的习惯,并正加速进入物理世界。
最后,赖俊杰再次强调:
为了能够训练与开发出来鲁棒的模型、算法,
为了能够让这些AI算法对真实的物理世界、对人类足够安全,
NVIDIA开发开源了Cosmos世界基础模型。
展望未来十年,英伟达相信在物理世界,物理AI的应用必将取得非常实质性的进步,进一步解放人类的生产力。