国地共建创新中心首席科学家江磊:产业呼吁数据标准化
发布时间:2025-08-13 14:51 浏览量:1
“重新审视人形机器人与具身智能的关系,我个人认为,要打造感知、认知、决策、执行的闭环。现在行业参与者的分布基本上集中在从感知直接到执行,再往下在认知和决策方面做得却不多。”8月11日,在2025世界机器人大会(WRC)上,国家地方共建人形机器人创新中心(以下简称“创新中心”)首席科学家江磊在论坛演讲中如是表示。
创新中心自去年5月在上海落户设立,同年7月发布了开源全尺寸公版人形机器人“青龙”。今年以来,创新中心又陆续启动或发布了具身智能训练场“麒麟”、生成式人形机器人运动大模型“龙跃”、具身智能大模型“龙腾”、首个规模突破百万量级的具身智能机器人数据集“白虎”等。本次WRC大会期间,江磊接受了《中国经营报》记者的采访。
数据标准化迫切
今年WRC展览馆格外火爆热闹,根据组委会官方数据,共有220家国内外机器人企业参与,其中人形机器人整机企业约50家。机器人大小形态、外观设计、功能体验可谓五花八门。
现在是否有必要推进具身智能行业的标准化建设?当记者把这一问题提给江磊时,他指出:“在数据方面业界已在呼吁标准化了。”这是因为依靠任何一家厂商,都很难真正解决具身智能所需要的数据问题,“很多机器人企业已采取了开源的策略,但一家开源的数据集,可能放在另一家的机器人本体中很难使用”。
“事实上,具身智能训练场的建设是一个重资产建设,并不是所有参与者都能承受得起,这需要行业头部的企业来推动。”江磊表示,与此同时,当下具身智能领域的技术仍未达成统一共识,“这决定了企业不会All in(全部押注)到某一个方向上,能看到许多企业跟着较主流的VLA(视觉—语言—动作)模型方向去做”。基于这些因素,行业界呼吁推动数据方面的标准化,能够产生一个类似AI基础设施的数据集和大模型。
江磊告诉记者,截至目前,创新中心已收集了约600万条数据,包括真机训练的“白虎”数据集和仿真场景的合成数据,并将部分进行了开源。之所以未全部公开,主要是因为在考虑开源开放机制建设问题,“无偿使用的模式,其实对于开源生态并不是一个好事”,待机制设计完成后就全部开放出来。今年1月时,创新中心日均收集的数据约三五百条,到现在日均已经达到约5万条了,月产约100万条,一个训练场预计一年能达到1000万条数据。
江磊透露,创新中心目前还在计划组建多个具身智能训练场,前不久已官宣了在河南郑州建立中部首个异构人形机器人训练场的消息。建立训练场,一方面希望能够带动当地产业发展,另一方面通过多训练场的数据互联互通,加速数据集建设。
“大脑不够大,小脑不够小”
谈及当前的具身智能机器人的发展现状,江磊认为仍存在三个问题,分别是感知局限、决策断层、泛化瓶颈。重新审视具身智能与人形机器人的关系,要打造感知、认知、决策、执行的闭环,用“具身智能+”来打造大脑、小脑、肢体,推动软件一体化的AI才是真正需要的技术体系,因为人类就是用大脑、小脑、肢体共同驱动的。
针对现状,江磊总结了一句话,即“大脑不够大,小脑不够小”。这并不难理解,机器人的“大脑”需要完整参数的模型,但现在的大部分大脑模型使用的还是如2B、3B规模的小参数,之后需要向60B、70B的参数规模去增加扩展;“小脑”模型又不足够小,即使现在最小的2B、3B参数模型,“小脑”的实时性也并不理想,在这个方向又需要往0.5B、0.1B去努力。除了大小脑的问题之外,人形机器人的肢体还不够智能,“希望行业内的核心零部件厂商不要都把重心放在机器人的‘肚子’里,放到主控计算机上,实际上每一个执行器、传感器,包括电子皮肤等,都应该去向端侧智能去探索”。
对于当下的中美AI竞争趋势,江磊指出,作为AI算力巨头的英伟达已经为人形机器人准备了“三件套”,包括数字孪生底座、大模型“大脑”和SoC算力芯片。而我们国家各地的创新中心在一年前已注意到这个情况,正在努力打造国产的技术与开源生态,包括具身智能开发平台、仿真环境与SoC芯片架构,今年这些工作都会提速。