【长期主义】第353期智能说:王兴兴演讲,与英伟达、银河闭门会

发布时间:2025-08-30 08:48  浏览量:1

2025世界机器人大会上,宇树科技创始人、CEO、CTO王兴兴发表演讲,分享对全球机器人行业发展现状最新观点。

王兴兴认为,人形机器人行业已经走到ChatGPT时刻前夜,最快1~2年,就能迎来该时刻;政策支持与需求爆发,2025年上半年,人形机器人整机与零部件厂商平均实现50%~100%增长,幅度惊人;未来2~5年,智能机器人技术重心,是端到端具身智能AI模型。

2025世界机器人大会期间,英伟达Omniverse与仿真模拟技术副总裁Rev Lebaredian,与英伟达机器人生态伙伴宇树科技创始人王兴兴、银河通用创始人王鹤,和多家媒体举行闭门交流会,深入探讨物理AI未来发展路径。

Rev Lebaredian对中国市场在物理AI领域发展表示高度认可,表示中国在物理AI与机器人领域,具备独特规模与人才优势,形成独一无二生态系统,为物理AI与机器人产业快速发展,打下坚实基础。

本期长期主义,选择宇树王兴兴最新演讲,英伟达与宇树、银河通用创始人闭门会全实录,智东西、腾讯科技发布,六合商业研选精校,分享给大家,Enjoy!

正文:

全文15,616字

预计阅读32分钟

宇树王兴兴最新演讲:数据不是具身智能最大挑战

时间:2025年8月9日

字数:3,156

2025世界机器人大会上,宇树科技创始人、CEO、CTO王兴兴,分享对全球机器人行业发展现状最新观点。

王兴兴认为,人形机器人行业已经走到ChatGPT时刻前夜,最快1~2年,就能迎来该时刻;政策支持与需求爆发,2025年上半年,人形机器人整机与零部件厂商平均实现50%~100%增长,幅度惊人。

王兴兴指出行业内存在几大误区。

首先,人形机器人大规模应用的最大问题,不是硬件,是具身智能。

硬件在量产工程化上,仍有提升空间,具身智能问题更为明显,无法驱动机器人自主完成任务,背后原因不是大家普遍关注的数据问题,是模型架构问题。

王兴兴称,未来2~5年,智能机器人技术重心,是端到端具身智能AI模型。

当前行业常见的VLA视觉-语言-动作模型,在他看来是傻瓜式架构,他对这类模型持怀疑态度。

由视频生成模型,或是世界模型驱动机器人控制,是王兴兴眼中有望更快收敛的技术路径。

机器人研究还需要在强化学习的扩展定律Scaling Law上实现突破,让每次训练的速度越来越快,学习新技能的效果越来越好。

随着机器人日益普及,分布式算力将成为大势所趋,有望突破机器人本体搭载算力的限制,满足实际应用过程中,对安全性与通信延迟的要求。

王兴兴演讲中回顾宇树科技发展,从2013年研发机器狗X dog原型机开始,获得第一桶金8万元,再到2023年应客户需求推出首款人形机器人,认为机器人与AI的发展,始终是全球共创的过程,鼓励更多企业与高校参与到这一过程中。

王兴兴精彩演讲内容整理:

我分享我个人对全球人形机器人行业的看法。

2025年上半年,最大特点是机器人行业非常火爆,政策相关支持,整机厂商、零部件厂商,平均实现50%~100%增长。增长幅度非常吓人,对整个行业都是十分罕见,需求端拉动整个行业发展。

海外市场方面,特斯拉作为行业代表,计划2025年量产数千台人形机器人,并将发布第三代人形机器人Optimus V3,值得重点关注。

全球企业对机器人行业热情高涨,包括英伟达、苹果、Meta、OpenAI等企业,都持续推动这一领域发展。

我分享个人观点,未必准确。

第一点,对机器人本体,很多人可能会有这样一个误区,机器人目前没有大规模应用、功能不够完善的原因,是硬件不够好,或者成本比较高。

目前的硬件,无论是整机、还是灵巧手,某种意义上完全够用。

不够好,还需要优化,更大问题是量产,工程上问题是很多的。

技术层面上,或者从AI角度,目前硬件完全够用。

目前最大挑战是具身智能,或者说AI技术发展,完全不够用。

这是限制当前机器人,尤其是人形机器人大规模应用的最大问题。

目前,机器人行业所处位置,类似ChatGPT诞生前1~3年左右,目前业界已经发现类似方向、技术路线,没人把它做出来。

ChatGPT出来的前几年,做语音AI的已经做了十几年,近20年,大家一直觉得他很傻瓜,很弱智,根本完全没法用。

ChatGPT出来后,它实现比一般人还要强的能力。

机器人没有到达这一临界点,对机器人的AI技术,我觉得临界点可能是这样,当一个人形机器人能够进入完全陌生的环境,比如从未见过的会场,我跟他说,把这瓶水带给某位观众,或是整理一下这个房间,它能够顺畅自主完成任务,这是人形机器人的ChatGPT时刻。

如果进展快,可能未来1~2年或者2~3年,我们能实现这一目标,最慢3~5年有很大概率能实现。

目前,具身智能不够用的问题,究竟是模型,还是数据导致,我感觉目前全球范围内,大家对机器人数据这个问题关注度有点太高。

现在最大问题,是模型的问题,不是数据问题。

对具身智能与机器人,模型架构都还不够好,不够统一。

大家对模型问题的关注度高,对数据的问题关注很多。

大语言模型领域,大家觉得我有足够多数据,尤其有足够多、好的数据时,我就能把模型训练的越来越好。

在具身智能,在机器人领域,很多情况下有了数据,会发现这个数据用不起来。

相对比较火的是VLA模型,VLA是相对比较傻瓜式的架构,我个人对VLA模型是保持比较怀疑的态度。

VLA模型在与真实世界交互时,它的数据质量、能采集的数据不太够用。

有个简单的想法,是在VLA模型上面加一个RL训练,这是非常自然的想法。

我个人感觉,包括我们公司,目前尝试下来,VLA模型加RL训练,我觉得还是不够,模型架构还是得再升级与优化。

这里简单分享一下我们过去做的一些事。

大家可以关注到,谷歌发布全新一代视频生成模型,或者某种意义上是一个视频驱动的一个世界模型。

2024年时,当OpenAI发布视频生成模型后,大家会有很自然的想法,我可以控制一个视频生成模型,跟他说帮我生成一个机器人,整理一下房间。

如果模型生成的视频中,机器人可以完成任务,我是不是能让这个视频生成模型,直接驱动一个机器人完成任务。

这个想法非常简单直接,我们2024年时,做了这个事情。

右上角视频是生成出来,不是用摄像头采集。我们用一个预训练的视频生成模型,重新训练了一下,让他先生成一个机器人动作视频,再控制一个机器人做,这个技术是能实现的。包括谷歌的视频生成世界模型,他们也想实现这个效果。

我觉得这个路线方向,可能会比VLA模型发展得要快,收敛概率更大。我不敢打包票,可能还是有很多问题。

有个很大问题是,视频生成模型,太关注视频生成质量,导致对GPU消耗有点大。

对机器人干活,某种意义上,不需要很高精度的视频生成质量,只要驱动机器人干活就行。

可以关注谷歌视频生成模型,还是非常有意思的。整个模型架构非常简单粗暴,是把机器人的一些动作序列控制,直接对齐到模型架构上。

目前机器人跳舞、打格斗效果不错,面临很大的问题,如果要进一步提升机器人能力,也是机器人RL的Scaling Law,还是做得非常不好。

举个最简单例子,我训练一个机器人做新动作、跳新舞蹈,都要重新训练,还是从头开始训练,这是非常不好的一个事。

我们是希望机器人每次做一个新训练时,可以在过去训练基础上进行。

理论上,我做RL训练时,每次训练的速度应该越来越快,学习新技能的效果越来越好。

全行业内,目前整个机器人在RL的Scaling Law,没有人做出来、做好,我觉得这是非常值得做的一个方向。

RL Scaling Law,在语言模型上,已经是充分验证过的事,在机器人的运动控制上面,才刚刚开始。

我个人感觉,未来2~5年,智能机器人技术重心是端到端的具身智能AI模型,我觉得模型本身是最重要的,然后是更低成本、更高寿命的硬件,这个是毋庸置疑的。

对汽车行业,已经一百多年,哪怕到今天,一家企业要做很好的一辆汽车,工程量还是非常大。

对机器人行业,未来如果每年要生产制造几百万、几千万、甚至几亿的人形机器人,工程量挑战是非常惊人。

低成本的大规模算力,也很重要。

人形机器人上,或者在移动机器人本体上,没办法直接部署大规模算力。它的尺寸只有这么大,它的电池只有这么大,它部署算力的功耗是有限制的。

我个人感觉在人形机器人上,最多只能部署峰值功耗为100瓦的算力,平时工作时算力只有小几十瓦,简单说就只有大概几个手机的算力水平。

未来机器人,是需要大规模算力,我觉得可能是分布式算力。

机器人干活时,我们希望通信延迟比较低,如果在北京干活的机器,数据中心在上海或者在内蒙,延迟实在是太大。

我个人感觉,未来在工业领域,大规模运用人形机器人时,工厂里面可以有个分布式服务器,所有机器人直接连接工厂里局部服务器就好。

服务器的安全性、通信延迟是可以接受。

或者换一个话题,如果一个小区,每家每户有一个机器人时,在这个小区可能是有分布式集群算力中心,可以保证延迟与安全性。

如果有新客户想买一个人形机器人时,他不需要给这部分算力的建设花钱,成本会低很多。

我觉得分布式算力,会是机器人行业未来非常重要的一个领域,可能比目前算力的分布还要更广一些。

AI、机器人一直是全球共创的过程。中国的企业、美国的企业,包括英伟达等,已经做出很多贡献。

AI领域,没有一家大公司能保证,只要有足够的人、足够资源,就能永远领先。

OpenAI与DeepSeek已经证明,AI的创新,永远伴随一些随机性,伴随更多聪明的年轻人。

很多情况下,都是很多公司、高校做出的贡献,还是要全球共创出来。

物理AI如何变革机器人产业,英伟达与宇树、银河通用创始人闭门会全实录

时间:2025年8月10日

字数:12,460

黄仁勋在2025年多次演讲中提到,英伟达NVIDIA正积极布局物理AI。

物理AI,将使机器人与自动驾驶汽车等自主机器具备运动技能,帮助它们理解,并与现实世界互动。

黄仁勋强调,物理AI将为机器人领域带来革命性突破,直言我们已经进入AI推理时代,下一波浪潮将是物理AI。

2025世界机器人大会上,英伟达Omniverse与仿真模拟技术副总裁Rev Lebaredian表示,物理AI将撬动万亿美元级实体经济。与IT产业5万亿美元规模相比,制造、物流、医疗等物理产业的总量,比IT产业大2个数量级。

若机器人能够将算力与这些产业连接,将极大提升生产力,带来指数级变化。

会后,英伟达Rev Lebaredian,与英伟达机器人生态伙伴宇树科技创始人王兴兴、银河通用创始人王鹤,和多家媒体进行了一场闭门交流会,再次深入探讨物理AI在未来发展路径。

会上,Rev Lebaredian对中国市场在物理AI领域的发展表示高度认可,表示中国在物理AI与机器人领域具备独特的规模与人才优势,形成独一无二的生态系统。中国不仅在制造电子硬件与机器人关键部件方面,具备深厚的专业能力,还拥有全球领先的制造规模。这些优势,为物理AI与机器人产业快速发展,打下坚实基础。

交流会完整版实录

嘉宾分享环节

英伟达副总裁Rev Lebaredian:物理AI将计算带入现实世界的智能革命

过去30~40年里,我们建立计算机产业与IT产业,它们放大各行各业能力,当时计算的影响,大多停留在信息空间,也就是可以数字化的内容,比如语言与各种可编码的信息。

互联网的出现,让计算技术真正走进每个人生活,把所有人连接起来,带来几十年增长。

全球市场规模看,相比IT行业总规模约5万亿美元,与全球所有行业超过100万亿美元的总量相比,只是很小的一部分。其它行业更有价值,是它们处理的是真实世界的原子,交通、制造、供应链、物流、医疗、制药等涉及物理世界的领域。

今天,随着AI的出现,我们终于有了让机器具备物理智能的能力,可以把物理世界与信息世界真正连接起来。

计算的力量,不再只局限5万亿美元的信息市场,可以进入100万亿美元的物理世界市场。这个桥梁,是机器人。有了机器人,我们能把计算与AI,带进真实世界,创造出能理解、改变物理环境的智能体。

中国是实现这一跨越的最佳地点,这里具备独一无二的条件。

顶尖AI人才:全球近一半AI研究人员与开发者在中国,包括来自顶尖大学的最优秀人才。

电子与计算技术能力:中国不仅有技术研发能力,还有全球无可匹敌的电子制造产业,这在物理AI与机器人领域至关重要。

庞大的制造业基础:这里有大规模部署与测试机器人的真实场景,可以快速收集数据、迭代算法,让机器人不断进化。

在世界机器人大会上看到如此多的能量、能力、热情,并不令人意外。

NVIDIA也为这幅拼图,贡献了独特的一块。

我们早已梦想参与解决这一问题,并为此努力了很长时间。

在机器人领域,我们打造了三台计算机。

机器人本体计算机:嵌入在机器人内部,例如自动驾驶汽车或人形机器人中的计算机。

专门为人形机器人打造的Jetson Thor,属于这一类,2025年在WRC展会上,可以在 Galbot与其他展出的机器人上看到它们身影。

AI工厂计算机:在使用机器人本体计算机之前,必须先开发它的大脑。需要依赖DGX与HGX系统,处理海量原始数据,生成物理AI算法、物理AI模型、神经网络,再部署到机器人上。

仿真计算机:物理世界的数据,无法直接从互联网获取,只能通过两种方式获得,真实世界传感器采集;基于物理定律与世界规则进行计算机仿真生成。

仿真不仅能生成数据,还能在部署前测试机器人,确保它们在真实环境中安全运行,测试速度可快于现实时间。

在机器人领域,NVIDIA拥有完整的Isaac平台,结合了硬件与三台计算机所需的软件栈,包括运行时与计算环境、仿真工具、训练框架。

NVIDIA Jetson Thor,是一款专为物理世界的智能推理代理,特别是机器人打造的超级计算机,黄仁勋称它为实时推理机器。

Jetson Thor性能亮点:算力是上一代Jetson Orin的7.5倍,接近10倍;每瓦性能提升 3.5倍;CPU性能提升3.1倍;I/O吞吐量提升10倍,满足高带宽感知需求。

Isaac平台包括NVIDIA的模拟器与仿真框架。

Isaac Sim:环境与传感器仿真、机器人测试、生成合成数据。

Isaac Lab:强化学习的仿真平台。

NVIDIA Cosmos:世界基础模型与框架,支持构建理解物理世界的AI,与Omniverse等模拟器结合,生成更精确、更大规模的数据。

世界基础模型处在起步阶段,尚不能完全理解世界,已经非常有用,为机器人研发带来全新能力。

宇树科技王兴兴:AI与机器人协同进化,迈向下一个科技时代

过去几年,我们非常重视人形机器人这一方向。

某种意义上,我将人形机器人视为通用机器人的重要载体。

通用AI,是目前全球最主流的发展方向,真正的通用AI,在执行任务时,离不开机器人,尤其是通用型机器人。

对比看,目前人形机器人是最理想的专业机器人形态。

看上去较为复杂,实际结构不如想象中复杂,本质是由若干关节电机串联而成。结构相对简单,不像履带式小车或其他形式的机器人更复杂。

我一直相信,当通用AI大规模成熟后,每个人都可以轻松制造一台人形机器人,类似今天人们可以购买电脑零部件组装一台电脑一样。

未来若AI足够强大,对硬件的要求会越来越低。

我们在2024年5月发布一款机器人,当时售价约9.9万人民币,至今依然具备很强的市场竞争力。

它的关节数量与灵活性表现优秀,在发布后,架构已成为全球较为主流的设计构型。

2024年下半年~2025年,不少新兴机器人公司的新产品在架构上,与这款相似,仅在外观上存在差异。

我们设计的造型流畅、结构简单,其他造型可能更复杂、不够美观,该产品在市场上竞争力较强。

近期我们又发布新的版本。

涂装稍显花哨,我们希望客户可以自由改装与喷涂外观,例如更改颜色或增加个性化装饰。

许多客户在户外直播时,会为机器人穿衣、戴帽或假发,创造出多种造型。

外观与造型的可定制性,对客户体验至关重要。

这款新版本售价,约3.9万元人民币,全球竞争力强,性能表现出色。目前现货可供,预计量产在年底前完成。

我们近期发布A2机器狗,最大特点是在紧凑轻量化设计下,实现较大负载能力。

自重约37千克,持续负载可达30千克,空载续航可行驶20公里。

外观吸取以往设计经验,更具科幻感,具备防尘、防水性能。

我们一直希望机器人,能在工业场景中,替代人类完成繁重、危险或重复性工作。

我们机器狗,在一些公益项目中,已实现24小时不间断运行,具备自动充电与巡逻检测功能。

2024年底,我们升级轮式机器人,这款产品较大,自重约70~80千克,部分场景不便使用。

我们推出更小型、防尘防水版本,适用室内外多种场景。体型较大,灵活性优秀。

通常小型机器人灵活性更强,大型机器人灵活性较差,我们在较大尺寸下,保证良好的运动性能。

2025年1月,我们机器人登上央视春晚,最大亮点是全自动编队跳舞。它在头部配备三个激光雷达,可自动建图,变换队形。

为适应舞台演出,我们将后台控制权,交给舞台控台,使音乐与动作实现毫秒级同步。

此次演出,共有16台机器人,统一连接至我们后台服务器,再接入舞台系统。

该项目的最大挑战,在于多机协作与复杂的编程维护。

目前,这些机器人在中国澳门美高梅,每日进行表演。

动作学习方面,我们通过采集人体动作数据、结合深度强化学习进行训练。

不同于语言模型训练,动作训练只需少量真实数据,其余由强化学习完成。

我们主要使用NVIDIA的Isaac Sim平台进行训练,已掌握舞蹈、跳跃、空翻等多种动作。

当前限制机器人执行更复杂动作的最大因素,并非算法,是硬件物理极限。

例如,要将奔跑速度,从每秒3~4米,提升到10米,对硬件的改进需求极高。

我们重视机器人上肢与手部研发,目前已自主开发一款约20自由度的灵巧手,目标是让机器人真正能够执行日常任务,不仅是完成展示性动作。

希望在未来1~2年内实现自然交互,例如在没有预先适配情况下,直接指令机器人为某人倒水。

2025年5月底,我们与央视合作,举办一场机器人格斗赛,时长约1.5小时,包含4个团队参赛。

格斗赛的算法复杂度,高于舞蹈或功夫表演,动作组合随机、存在强干扰,要求动作衔接流畅,可自由组合。

我们目标,是在未来实现任意动作的任意实时生成。

我们发布R1机器人,重量约25千克,轻便、安全。

体积较小,动力性能强劲,主要面向工业应用;算法与人形机器人类似,四足机器人的稳定性更好,可完成更剧烈动作,不易损坏,具备较强越障能力。

回顾过去,AI与机器人技术的发展,始终是全球协作的成果,包括NVIDIA在内多方力量,一直推动机器人与AI领域全球合作。

在通用智能大模型与真正能执行任务的机器人普及之前,我们仍需共同努力,推动人类进入下一个科技时代。

我相信,AI与机器人技术,将像电力与蒸汽机的发明一样,使人类文明迈向新的高度。

银河通用王鹤:合成数据是推动具身智能快速落地的关键

今天在场的所有机器人公司,包括NVIDIA与银河通用在内,我们共同目标都是打造通用机器人。

这样的通用机器人,将成为下一个价值数万亿美元、数万亿人民币市场的关键性、革命性产品。

这种革命性产品背后,包含多个核心要素:

第一个要素,机器人的本体;

第二个要素,驱动它运转的具身智能模型;

模型背后是数据支撑,什么样的数据,能训练出这样的能力。

我将依次分享银河通用,在这些方面探索与成果,介绍最终落地的产品。

银河通用与其他公司不同之处在于,我们机器人并非完全人形,是轮式双臂、双手的形态。

我们采用轮式底盘,主打高续航、工业级安全性,可实现大规模、高可靠交付的能力。

银河通用G1机器人,2024年5月首次亮相,经过1年多迭代,目前在自动充电、运行流畅度、稳定性方面,均已达到大规模自主商用的标准。

我们在中国将NVIDIA Jetson Thor芯片,部署于人形机器人,也是全球最早收到该芯片的公司之一,在WRC大会上实现现场部署。

演示中,配备该芯片的机器人,展现出丝滑的运动性能、实时的货箱视觉处理与运动规划能力,速度显著提升,赢得现场观众一致评价为最快的人形机器人,背后离不开强大芯片的支撑。

我们机器人能够在复杂环境中高效导航,源于银河通用长期研发的大规模具身大模型VLA,导航大模型只需一句话指令,即可在场景中自主运动。

六一儿童节前夕,我们全球首发无需建图、可在任何复杂场景中跟随人的TrackVLA,能够自然语言交互、穿梭障碍物,全程自主运行,即使在人流干扰下,也能稳定跟随。

上半身操作方面,我们首发抓取基础大模型Grasp VLA,实现抓取动作的实时闭环生成。

各种光照条件与挑战性背景下,均能实现指定物体的零样本抓取,无需事先训练该物体。这为未来自然语言+即时执行,打下基础。

基于Grasp VLA,我们打造零售场景应用,无论瓶装、袋装、散装、挂装或软体物品,均可由同一模型完成抓取与递送。

这是全球首个可应对50多种不同物体摆放、从刚体到软体,全覆盖的端到端零售大模型。

银河通用能在全球率先推出多款基础大模型,能在真实商店场景稳定应用,受益全套仿真引擎。我们与NVIDIA一致认为,合成数据是推动具身智能快速落地的关键。

目前,真实世界数据仅占我们训练数据的1%,其余99%均为合成数据。

我们将自研机器人模型、大量物体与材质资产输入合成管线,生成全球首个百亿级抓取操作大数据集,全球首个百亿级柔性物体操作大数据集。这些数据,使我们模型在真实环境中,具备极高鲁棒性与泛化能力。

目前银河通用为轮式形态,下一代将采用纯双足设计。无论在仿真环境、还是现实环境,该平台可训练、部署多种任务能力,例如推车、拾取地面物体等。

银河通用多项技能,已实现完全商用。

我们推出全球首个24小时无人药房解决方案,在北京、上海、深圳等地签约超过100家药店。

用户通过APP下单后,由机器人在店内完成取药,交付外卖员。

2024年,我们官宣24小时无人零售店项目,将在10个城市百处核心商圈与旅游景点,部署银河通用太空舱零售终端,销售饮品等商品。

媒体交流环节

物理AI的未来:通过专用计算平台打破通用计算的限制

问题:英伟达在2025世界机器人大会,展示一系列物理AI成果。

物理AI,特别是在机器人领域,对能耗、热管理、体积限制有很高要求。

NVIDIA如何应对这些挑战,未来的计算平台将如何满足这些需求?

Rev:回顾历史,NVIDIA每一代产品,都会大幅提升每瓦性能与每美元性能。

过去我们有摩尔定律,意味着算力会以指数速度增长,在最佳阶段,每5年性能提升10倍,10年提升100倍。

单靠摩尔定律,已经不足以解决我们面临的许多问题。我们预见到,摩尔定律在CPU与通用计算机上的效用会逐渐终结。

我们为此致力打造针对特定算法的专用计算机,这种专用计算机,不仅是芯片层面,更需要算法、软件、应用层面整体优化,才能发挥最大性能。

这并非靠单一因素,比如芯片变小或变快,是通过全栈优化实现。

这是一项非常艰难的工程,正是NVIDIA核心竞争力所在。

我们最初应用这套方法于计算机图形渲染,尤其是游戏领域,随后推广到其他领域。

CUDA推出后,我们开始应用于物理仿真,后来深度学习与AI在GPU上兴起,我们不断专门化处理器。

每一代产品,在相同功耗与成本下,都实现显著性能飞跃,未来仍会持续,我们创新之路远未走完。

问题:中国市场,相比其他国家,你怎么看中国AI需求与实践中的挑战?

Rev:中国既是重要的市场,也是AI技术与产品的生产基地。

中国拥有大量聪明、受过良好教育、充满热情的AI研究人员与开发者,全球近一半顶尖AI人才,都集中在这里,中国拥有顶尖的AI高校。

物理AI与机器人领域,中国拥有独特的规模优势,结合人才优势,形成独一无二的生态系统。

中国在制造电子硬件与机器人所需关键部件方面,具备深厚的专业能力,这样的生态体系与制造规模,是其他国家难以匹敌。

这使得银河通用、宇树科技这样企业,能够大规模制造机器人,快速学习、迭代。

中国独特的综合条件,为物理AI与机器人产业快速发展,提供坚实基础。

问题:在医疗与养老高精度应用场景中,NVIDIA Omniverse如何确保用仿真数据训练的机器人,具备可靠性与安全性?

Rev:如果你想构建能够在现实世界中行动、安全可靠的机器人系统,唯一的选择,是使用仿真。

自动驾驶为例,我们绝对不希望车撞到人或者孩子,当街上出现小孩时,车辆的大脑该如何反应,如何获取训练这类系统的数据,唯一办法是通过仿真。

我们绝不可能将孩子置于汽车前作为训练样本,这样做,不道德、危险,耗时、昂贵。

即使训练完系统,在将它部署到现实世界之前,也需要在这些相同场景中进行测试,确保在真正发生类似情况时,它能够正确反应。

真正的选择,只有通过仿真实现,现实世界测试过慢、成本高、危险,我们不希望机器人在现实世界先失败。

如果我们无法让仿真足够准确以测试机器人,我们将无法制造出可靠的机器人。

目前已有非常准确的仿真器,这些仿真器计算量大、成本高昂,我们面临的真正挑战是如何提升仿真速度,使其在大规模系统构建中具有成本效益,这是我们一直努力的方向。

问题:未来几年内,驱动AI机器人的仿真领域,会有哪些关键技术趋势将改变整个行业?能否分享一些中国生态合作伙伴,如何利用NVIDIA仿真技术加速产品创新的案例?

Rev:我认为目前最大趋势,是所有在常规AI领域出现的技术与发展,正被应用到物理AI中,最重要的突破是推理能力提升。

比如DeepSeek将推理能力带入开源领域,现在我们看到其他各种模型。

我们在智能水平上实现飞跃,将同样的技术应用到物理AI,是机器人领域一个重大突破。

我们机器人将能更自然与人互动,完成复杂的多步骤任务,这是非常关键的能力。

将这种能力与仿真结合,我认为这是可能还未被广泛理解,将成为重大突破的点。

目前我们面临的主要问题,是AI极度依赖数据,获取合适数据非常困难。

我们现有的推理模型,尤其是对物理世界的推理,现在可以帮助我们改善数据生成与数据创建的流程。

如今我们生成的数据,即使是合成数据,也需要大量人工参与,人工构建虚拟世界与仿真环境,判断该生成哪些数据,才能让智能系统更聪明。

如果我们把正在开发的AI技术,用在数据生成流程中,可以实现自动化,打造自动驾驶的合成数据生成。

如果我们拥有自动驾驶的合成数据生成工厂,就能直接将其接入训练流程,实现训练过程自动化,减少人为干预,让机器人大脑更聪明。

中国企业如何应用仿真技术及其带来的影响,我认为他们已经在积极探索与应用这些技术。

王鹤:我认为,随着仿真引擎与并行渲染器进步,合成数据的生成,变得更加高效,无论是通过强化学习,还是通过数据生成后、再进行模仿学习,整体难度大大降低。

无论是人形机器人行走、跳舞等技能的训练,还是抓取、叠衣服、导航等任务的背后,都离不开高效的仿真器与并行渲染器。

我们非常感谢英伟达在这一过程中,作为生态合作伙伴的支持,从芯片到仿真平台,为整个行业提供强有力的支撑。

请务必阅读免责声明与风险提示