瞭望 | 破题数据之困

发布时间:2025-11-18 12:18  浏览量:1

“训练具身智能大模型,需采集视、听、触、力觉等多模态数据,保守估计当前已有数据量与所需数据量之间至少还差两个数量级。”

“可借鉴互联网中台概念建立具身智能数据共享平台,制定贡献即获益规则,通过财政补贴、算力支持等政策激励企业贡献数据,再用数据交易机制保障投入回报,共同做大产业蛋糕。”

文 |《瞭望》新闻周刊记者 杜康 石佳

当前,一些具身智能产品已能够灵活行走、腾跃翻转,甚至完成抓取装配。随着具身智能火出圈,人们期待新一代机器人具有高泛化性,即机器人能够在不同场景中稳定执行任务,在产业应用中完成零部件制造、精密装配,商用中走进家庭等。

数据是具身智能泛化能力的基石。通过构建大规模、多样化、多模态、任务丰富的交互数据集,并结合先进的学习范式,提升在未知环境和任务中的适应性,具身智能才能真正落地应用,目前看仍有较长的路要走。

目前具身智能大模型训练数据有两类,一是合成数据,二是真实数据。合成数据成本低,但与真实世界有偏差。真实数据高度还原现实场景,基于这些数据训练的模型具有更高的可靠性和泛化能力。

当前,业界正在创新多种采集方式,实现真实数据量的积累。在量的基础上,各方还从技术创新、场景落地、标准建设等方面提升数据品质。

千寻智能 Moz1 机器人正在采集数据(2025 年 11 月 11 日摄) 受访者供图

弥合真实数据量鸿沟

业内认为,以真实世界数据训练大模型,可逐步实现高泛化性。

真实数据采集成本高、效率低。“训练具身智能大模型,需采集视、听、触、力觉等多模态数据,保守估计当前已有数据量与所需数据量之间至少还差两个数量级。”上海市数据科学重点实验室主任、复旦大学计算机科学技术学院教授肖仰华告诉记者。

目前,业界正创新多种采集方式,突破真实数据收集壁垒。

一是搭建真机数据采标平台。例如北京人形机器人创新中心有限公司(下称“北京人形”)正与百度智能云建设百万量级的高密度、高质量、高通用性数据集。北京人形大模型负责人鞠笑竹介绍,数据集包含了多种构型机器人在家庭、商业和工业场景中的数据,并已应用到北京人形多种自研模型的训练中。其中,跨本体视觉语言动作大模型XR-1,搭载天工、Franka等不同构型机器人,多种任务平均成功率提升约20%。

二是利用数据手套实时收集高精度操作数据。例如北大—灵初联合实验室设计了同构型外骨骼灵巧手,聚焦手部操作数据积累。

“我们设计了一款类似电子化数据手套的设备,让人在作业时佩戴,相比遥操作机器人夹爪采集数据,数据手套能够实时收集到手部各关节的高精度操作数据,帮助机器人更好地抓取柔性物体、实现精密装配。”北京大学人工智能研究院研究员、北大—灵初联合实验室首席科学家杨耀东介绍,单套设备每日的数据采集量能够达到5000条,目前已经累计收集超百万条手部操作数据,主要落地在物流分拣场景。

三是以产品规模化落地获取更具针对性的数据。维他动力(北京)科技有限公司联合创始人赵哲伦介绍,无人驾驶验证了一种获取海量、多样化真实世界数据的路径,具身智能规模化落地部署会带来真实数据回流,协助完成模型训练和评测。

杨耀东介绍,北大—灵初联合实验室的机器人技术正加速落地工业来料检查、物流扫码等场景,并将采集的数据用于解决大模型预训练中交互准确性不足的短板,让具身智能更贴合实际场景需求。

以标准提质量

随着真实数据的量不断积累,提升数据品质是决定具身智能能否落地场景的另一关键。

当前各地建立的数据采集场,短期内确实让数据总量显著增长,新的问题是,数据与大模型、本体存在强耦合关系,存在“数据跟着本体走”现象,不同型号机器人的传感器布局、算法差异,导致采集的数据格式互不兼容。

“目前数据采集标准仍处于模糊阶段,如果无法解决数据标准统一、可跨本体使用问题,现在采集厂收集的数据可用性会在未来机器人本体结构更新换代后大打折扣。”鞠笑竹提到,数据格式、术语、采集流程等的统一,能从根本上解决数据异构问题,为模型训练提供高质量原料。

觅途咨询·具身智能研究院执行院长王淼建议,在技术多样化和差异化基础上,针对具身智能的数据基础设施进行路线收敛,打通底层的工具链、数据格式、通信协议、安全认证,可以在一定程度上解决数据异构问题。

业界已经在行动。智元机器人表示,今年9月公司已经成功通过由国家机器人检测与评定中心发布的《人形机器人数据集CR产品认证实施规则》,拿下业内首张人形机器人数据集产品CR认证证书。通过认证的数据集能为企业提供符合场景需求的“合规数据”,大幅降低场景适配成本。

提升数据利用效率

数据采集标准完善后,加强数据流通使用,方可挖掘数据最大价值。针对企业因利益、安全顾虑不愿共享数据的难题,政府或行业学会搭建数据共享平台以提升数据利用效率成为业界所盼。

“可借鉴互联网中台概念建立具身智能数据共享平台,制定贡献即获益规则,通过财政补贴、算力支持等政策激励企业贡献数据,再用数据交易机制保障投入回报,共同做大产业蛋糕。”肖仰华建议。

具身智能数据的顺畅流通,还需立法保障。当前缺乏明确法规与标准,隐私界定模糊。“具身智能数据隐私问题需结合来源判断,合成数据与基础原子动作数据暂不涉及隐私风险,但进入真实场景后问题便会凸显,例如家庭环境对话、工厂实际工况等数据,与隐私和商业秘密深度绑定,中长期面临风险。”王淼建议,加快完善相关规范,在保障安全的前提下推动数据流通。■