一场会议聊透具身智能:模型、数据、场景,我们梳理出了关键洞察

发布时间:2025-09-05 10:29  浏览量:1

8月29日,国家会议中心内进行着一场聚焦具身智能行业发展现状的务实讨论。在2025百度云智大会“AI+机器人”专题论坛上,多位来自企业一线、学术界与投资界的专家代表齐聚一堂,共同为这个聚光灯下的新兴赛道,探寻规模化落地的最优路径。

尽管具身智能概念持续升温,但其发展仍然面临多重现实挑战。一方面,技术路线尚未收敛,端到端VLA、世界模型、大小脑分层架构等多条路径仍在并行探索,且缺乏统一标准。另一方面,数据跨本体无法复用成为普遍难题,同一套算法在不同机器人平台间难以有效迁移。

从数据采集到模型训练,从硬件本体到场景落地,产业链条上的每个环节都仍有大量技术和工程问题需要解决。

面对这些结构性难题,行业共识正在形成:依靠单一机构的力量难以实现全链条突破,必须构建多方共建的产业协作生态。不同类型的参与者开始明晰自身定位:本体厂商专注硬件优化和以落地场景为导向正向设计产品;创新中心牵头行业共性技术问题攻坚以及推动制定行业标准和开源开放;芯片与仿真软件公司提供训练/推理算力基础设施和开发工具链;场景方则逐步开放真实应用场景协同具身企业加速技术验证。

作为智能时代基础设施的提供方,百度智能云自2023年下半年专项投入具身智能赛道,并在本次活动中进一步强调了其“技术赋能”与“场景链接”的生态定位。在技术赋能上,围绕企业在具身大小脑、数据和本体研发几大研发任务全面展开。

目前,依托百度百舸AI计算平台,为行业提供高性能AI算力与训练推理加速能力;通过文心大模型和百度智能云千帆大模型平台,提供LLM/VLM模型、Agent等全套AI开发服务能力;结合百度在智驾等领域积累的专业化、规模化的数据采标服务能力,助力解决具身智能数据稀缺问题;结合在智能硬件语音技术的积累,支撑机器人本体构建拟人友好的语音交互体验。

一、强算力底座驱动模型进化

当前,具身智能算法层的技术路线,存在三条主流路径。

第一条是端到端VLA技术路线,采用单一模型直接从感知到动作的端到端学习方式,虽然具备一定泛化能力,但主要适用于短程任务,在复杂长程任务上存在局限性。第二条是大脑+小脑分层技术路线,这是目前相对成熟的主流方向。该路线以多模态大模型作为“大脑”负责高层决策和任务规划,配合专门的“小脑”模型处理具体的运动控制和执行任务,通过分层协作实现更强的任务处理能力。第三条是世界模型技术路线,代表最前沿的探索方向。世界模型旨在构建对物理世界的完整建模,通过预测未来状态来优化动作决策。

北京大学计算机学院助理教授仉尚航在论坛上指出,“目前VLA还是一个非常难的问题,有很多研究的空间。世界模型的研究仍处于特别早期,大小脑技术路线可以实现模块化、可泛化和可解释的一些优势。”

路线收敛并不意味着问题解决。当前具身智能面临的落地挑战反而因为场景应用要求的提高而变得更加严峻。

最直接的问题是推理延迟。想象一下,当用户发出“递给我那个杯子”的指令后,机器人需要等待3秒才开始“思考”,这样的体验显然无法满足实用需求。

更深层的挑战来自强化学习的样本效率。与可以无限重启的仿真环境不同,真机交互中的每次失败都是不可逆的样本损失。一个简单的抓取动作如果失败,不仅浪费了时间,更重要的是丢失了一个宝贵的训练样本。

千寻智能在训练的过程中验证了具身模型Scaling Law的可能性,千寻智能具身智能部负责人解浚源在会上分享:“我们验证了在具身智能领域,在小规模上,Scaling Law是成立的。根据深度学习过往的经验,扩大规模,Scaling Law会持续成立,可以达到模型效果可预期的提升。”

而要产生模型的Scaling Law,背后需要强大的算力平台作为支撑。

在云智大会主会场中,百度集团执行副总裁、百度智能云事业群总裁沈抖博士强调:“想要模型保持领先,它所依赖的计算平台必须强,要能高效地支撑各种模型的各种训练范式。”

在模型适配方面,百度百舸平台展现出了在云厂商中的领先布局。目前全面适配了RDT、π0、GR00T N1.5等主流开源VLA模型,成为业界首个实现如此广泛覆盖的云服务平台,并针对世界模型和视觉语言模型的训练推理都做了深度工程优化,大幅提升模型训推性能。这种全适配能力让企业无需为不同模型搭建独立的基础设施,大幅提高模型研发效率。

北京人形机器人创新中心近期发布的具身世界模型、跨本体VLA模型等一系列行业突破性成果中,基于百舸平台,强化学习训练速度实现翻倍提升,模型迭代节奏显著加快,验证了这种底层AI基础设施的价值。

在28日上午的云智大会主论坛上,沈抖博士也提出:“我们希望包括百舸在内的一系列产品技术可以帮助大家抓住窗口期,抢占主动、赢得先机。”这个价值主张,也准确呼应了当前具身智能企业从比拼本体运控能力到比拼具身模型能力的重要趋势转变。

二、数据“不泛化”,如何统一?

如果说算力是具身智能的“血液”,那么数据就是这个行业的“食粮”。然而,不同于文本、图像等互联网数据可以轻松爬取和积累,具身智能需要的是机器人与物理世界交互的行为数据,这类数据天然稀缺且获取门槛极高。

因此具身智能的数据获取面临着更为复杂的挑战,成为活动现场被高频提及的议题之一。当前业界主要存在两条技术路线:真机数据采集与仿真数据生成,分别对应着不同的训练阶段和训练方式。

真机数据被公认为训练效果最好的“黄金数据”,但采集成本更高,其次是格式不统一。不同机器人本体由于硬件设计、控制系统的差异,产生的数据在坐标系定义、时间戳格式、动作标签规范上完全不兼容,每个机器人平台都需要重新积累数据,严重制约了技术迭代效率。

即使是同一个抓取任务,不同操作员的执行轨迹可能相差20厘米。智源研究院具身数据负责人姚国才直言:“采集数据过程中有大量不可控的因素。举例假设这个采集员去桌面抓一个苹果,他做的动作,采了100次,动作非常标准,100次一模一样,100条数据等于一条,不具备价值。”

相比之下,仿真数据可以大规模生成,成本低廉,但训练出来的模型往往“水土不服”。现有仿真环境很难准确还原真实世界的复杂物理交互,特别是遇到柔性物体操作、复杂环境建模时,仿真与现实的差距就暴露无遗。

国地共建人形机器人创新中心副总经理刘宇飞在现场表示:“我们在全国8个省市开展了虚实结合的训练场工作,发现仿真数据可以帮助去做数据的增强、纹理、光照等方面的工作,而且它的增强效果非常明显。”

在真机数据方面,一星机器人找到了巧妙的解决方案,在产线部署可穿戴力觉手套,直接将工人的自然动作转化为训练数据。“我们不再需要专门的遥操作员,产线工人在正常工作过程中就能产生高质量的训练数据,单条数据的边际成本几乎降到了零。”这种方式不仅大幅降低了成本,更重要的是获得了真实工作场景下的自然动作数据。

在标准化方面,北京人形机器人创新中心发布的通用具身智能数据集RoboMIND取得了重要进展,实现了跨单臂、双臂、人形机器人等多构型机器人平台的统一数据规范,已开源超10万条轨迹数据,涵盖479种任务场景和96类物体交互,预计年底将扩展至30万条规模。

百度智能云在真机数据和仿真数据采集两个方向都与企业共创了解决方案。

北京人形机器人创新中心CTO唐剑在现场介绍道:“我们有全套的数据采集方案,希望通过建设数据基地,推动整个具身智能行业的发展。在具身数据全链路采集管理上,和百度智能云深度合作,包括大模型训练,在算力上也得到了大力支持。”

仿真工具方面,百度智能云与NVIDIA深度合作,将Isaac Sim和Isaac Lab仿真平台集成到了云上,结合云上高性能算力按需扩展,加速小脑运控算法迭代,并以“开箱即用”的交付方式降低仿真工具软硬件环境的部署和维护成本。

NVIDIA中国区机器人业务负责人李雨倩在论坛上表示:“现在Isaac平台跟百度智能云已达成深度合作,如果想要更方便快捷地进行开箱即用的仿真和强化学习等训练体验,可以到百度智能云上了解更多的服务。”

结尾:

当前,具身智能已成为创新最为密集发生的领域之一,尽管规模化落地尚需时日,但技术和产品的迭代速度之快,远超预期。维他动力首款智能伴随机器人产品,集成了百度智能云语音交互方案,预计将在年底实现量产,在不到8个月的时间里,完成了超过20版模型的迭代;千寻智能年初发布了自研VLA模型Spirit v1,其赋能的机械臂在国内已首次实现叠衣服全流程顺畅操作,以“脑体并进”的形式攻克了柔性物体长程操作的行业难题。

简智新创机器人联合创始人李兴龙认为,国内具身智能企业在工程化能力、研发实力及生产效率上具备明显优势,如果能做好海外市场认证、进出口技术处理等准备工作,具身智能产品出海将具备巨大的市场潜力。

具身智能正在告别“实验室秀肌肉”时代,从概念验证走向规模化落地,步入数据统一、模型收敛、算力提效的新阶段。

这场变革的核心,是产业分工体系的重构。云厂商正在成为整个生态的“底盘”,将数据采标、模型训练、仿真闭环等复杂工作做成水电煤般的标准化服务。这种AI基础设施即服务的模式,让本体厂商专注硬件创新,算法公司聚焦技术突破,场景方深耕应用落地,各方真正实现分工协作。

这种转变恰恰凸显了百度智能云的独特价值:相比其他云厂商主要提供通用计算资源,百度智能云的优势在于对AI技术栈的深度理解和全链路布局,以及对垂直行业的定向深耕。

从搜索时代的深度学习应用,到自动驾驶的感知决策算法,再到大语言模型的训练推理优化,百度在AI领域的十余年技术积累让智能云天然具备了“更懂AI”的基因。

成为最多重点具身智能企业首选的AI云,正是这种积累的最新体现。无论是各类具身模型的训练和推理性能优化需求,还是多模态数据的大规模采标处理挑战,都能在百度的技术版图中找到对应的解决方案。这种AI-native的基础设施能力,让百度智能云不仅仅是算力提供者,更是企业的AI技术伙伴,助力具身智能企业在产业发展关键窗口期,抢占主动、赢得先机。