具身智能的“生命线”:数据基石与未来路径 | GAIR Live 017
发布时间:2025-10-29 00:35 浏览量:2
仿真合成数据是通往具身智能的必经之路。
作者丨岑峰
编辑丨马晓宁
如果说大模型的出现引爆了通用人工智能的想象,那么,具身智能则让 AI 拥有了可以感知、决策和行动的“身体”。而这一切的背后,都离不开一个至关重要的“生命线”——数据。
近日,雷峰网主办了一场主题为《具身智能数据:赋能感知、决策与控制的智能之源》的线上圆桌论坛,邀请了香港大学助理教授李弘扬、光轮智能联合创始人兼总裁杨海波、艾欧智能联合创始人、技术总监高飙三位重量级嘉宾,共同深入探讨了具身智能从数据采集、合成到闭环学习的全过程,为行业揭示了构建具身智能“生命线”的核心挑战与解决路径。
具身智能数据面临的挑战比传统 AI 领域更为严峻。嘉宾们一致认为,数据是构建“机器人基础模型”(Robotic Foundation Model)最关键的一环,但目前行业面临三大核心挑战:数据稀缺性与泛化能力、物理真实性与规模化短缺、商业与数据飞轮的脱钩。
针对真机数据的稀缺性和高门槛,嘉宾们分享了各自的独特解决方案:
李弘扬教授团队发布的 AgiBot World 数据集,以其百万条真机轨迹在业界受到关注。他指出,解决高质量数据稀缺性,需要建立人机协同的数据管线;
杨海波总明确指出,光轮智能的底层逻辑是“AI 进入物理世界”,并通过追求物理真实、强调人类示范在环、构建足够丰富的场景、构建多样性、数据闭环验证四个维度创新来解决仿真与真实世界的“领域差距”;
艾欧智能选择了一条与机器人本体解耦的技术路径,来解决早期硬件不稳定和数据过时的问题。他们通过多模态传感器采集人类执行复杂任务的行为数据,而非直接采集机器人本体数据;
嘉宾对具身智能的终极目标达成了共识:仿真合成数据是通往具身智能的必经之路。具身智能的未来,正是在虚实融合、人机协同中,加速这一数据飞轮的转动,最终实现从感知到行动的智能体落地。
以下是此次圆桌讨论的精彩分享,AI 科技评论进行了不改原意的编辑整理:
01 具身智能的核心挑战
岑峰:各位线上的朋友们、各位行业同仁,大家晚上好!欢迎来到由雷峰网主办的,主题为《具身智能数据:赋能感知、决策与控制的智能之源》线上圆桌论坛。我是今天的主持人雷峰网岑峰。
今天的线上圆桌,我们的目的正是聚焦具身智能的数据之源。我们将深入探讨从数据采集、合成到闭环学习的全过程,共同挖掘如何构建具身智能的“生命线”,解决从感知到控制的复杂难题。
我非常荣幸地为大家介绍三位重量级的嘉宾,他们分别是:香港大学助理教授李弘扬、光轮智能的联合创始人兼总裁杨海波、艾欧智能的联合创始人、技术总监高飙。
感谢三位嘉宾的到来。在传统的 AI 领域,我们有海量的互联网数据;但在具身智能领域,数据变得稀缺、昂贵且难以获取。我想请三位嘉宾从各自的视角出发简单概括,当前具身智能数据面临的最核心的挑战、或者你们最关注的是什么?
李弘扬(香港大学):具身智能现在核心挑战在于泛化能力、智能化和可靠性。从学术角度看,最大的挑战是如何在不同的机器人本体下,高效地利用海量数据(真机、仿真、互联网数据),真正建立起一个“机器人基础模型”(Robotic Foundation Model)。相比于设计 VOA 、世界模型等,我个人认为数据是最关键的一环。
杨海波(光轮智能):我们一直坚信 AI 已进入“数据为中心”的时代,具身智能的数据需求更为迫切。我们最关注如何利用仿真合成数据,提供足够物理真实、大规模、高质量、高通用性和多样性的数据去服务基础模型(Foundation Model),从而帮助机器人基础模型找到 Scaling law ,并迎来“ GPT 时刻”。
高飙(艾欧智能):从我们的角度来说,目前具身智能数据面临的核心挑战是,缺乏可以同时完成商业闭环和数据飞轮闭环的落地场景。真机采集成本高、效率低,且数据与特定硬件强耦合,难以复用。我们关注如何通过闭环的方式,推动商业和数据飞轮的正向运转,即通过人工操作机器人的方式,在使用过程中同步产生高质量训练数据,打破数据积累的瓶颈。
02 真机数据与仿真数据、人机协同
岑峰:我们接着嘉宾谈到的几个点展开。李老师,您团队发布的 AgiBot World 数据集这一年来在学术界和产业界的进展如何?
李弘扬:AgiBot World 最大的特色是拥有100多万条真机轨迹,涵盖双臂、单臂、灵巧手等复杂任务,今年3月份也发布了完整版,我们也收集了很多反馈。它在面对真机部署挑战方面表现出色,但客观来说,在高校的应用没有像产业界的其他友商用得这么多,主要原因是数据格式稍复杂,且要求捆绑式上传云与部署,与(学术界惯用的)Umi 和 Aloha 等完全开源的还是不一样的。
近期我们对 AgiBot World 做了重大更新,彻底开源了 G1 模型和对比实验结果,这个开源也是非常彻底的,和跟我们合作的公司还是做了非常大的这个争取。我的学生也对四五万行的代码进行了重新的 refactor ,数据做了 pretrain ,确保论文结果是可复现的。我们认为:高质量的数据分布(Data Distribution)远比单纯积累技能(Skill)更重要。
过去一年的一些进展,非常欢迎大家在 open drive lab 的 GitHub 下面完整版的真机的模型代码,非常欢迎大家来给我们批评指正。
岑峰:您还提出了人机协同数据管线理念,能否结合 Agibot World ,具体说明是如何解决具身数据的高维度和稀缺性痛点的?
李弘扬:人机协同的理念,我认为更多是着眼于解决高质量数据的稀缺性问题,以及如何从素材源端确保数据质量的配合。当前,业界比较主流的做法是制定非常完整详细的数据采集规范(SOP)。以叠衣服为例,规范会详细界定操作的顺序,以及不同光照条件、物体高度或衣物种类的变化等。
要确保具身智能领域的健康有序发展,规范数据采集员的流程至关重要。不同的采集员,其操作习惯、甚至从 A 点到 B 点的速度控制都可能存在差异;早期开发的机器人本体,即便型号相同,其“手感”也往往不尽相同。
在这种背景下,便更需要数据层面的人机协同。这种协同,正如最近强化学习(RL)领域强调的 “从失败中学习”思路,要求在采集长序列的复杂任务时,必须妥善设置断点。它更要求在机器遭遇错误示范时,能够实现及时的人工恢复。同时,还需要在素材源端详细记录这些操作的元数据(Meta data),以便进行高效的上传和迭代。这些步骤对于保障数据质量和效率是极为重要的。
我个人虽身处高校,但曾在工业界工作过。我认为学术界,尤其是在做 AI 驱动的机器人研究时,必须做到与时俱进。如果仍抱持着不愿从事数据收集这类 “Dirty Work”,而仅仅专注于模型或算法创新的观念,那很可能会被时代所淘汰。
岑峰:杨总,光轮从自动驾驶拓展到具身智能,底层的逻辑是什么?相比自动驾驶,具身智能的合成数据有哪些特殊挑战?
杨海波:我们并非从自动驾驶“拓展”至具身智能。自公司成立之初,我们所专注的便是“AI 进入物理世界”这一核心命题。自动驾驶和具身智能的底层逻辑是相通的,都是在赋能 AI 与物理世界的互动,而自动驾驶是我们在当时产业更成熟的背景下选择的首个落地场景。因此,我们在引入自动驾驶相关技术时,始终会考量其是否能契合具身智能的未来需求。
诚然,具身智能与自动驾驶存在一些显著差异,其中最大的区别在于:
物理交互的复杂度: 自动驾驶更像是一种“视觉游戏”,其唯一的物理交互主要涉及车辆和地面的动力学,解决的是避免碰撞的问题;具身智能则充满了物理交互。无论是训练数据,还是最终进入场景,机器人都需要与世界深度互动。例如,拉开冰箱门所需的力的大小,对温度、光线的感知变化等。具身智能在物理真实性上的要求比自动驾驶更为复杂。
场景的丰富性: 自动驾驶总体上是在结构化道路上运行;而具身智能需要进入千行百业、千家万户,其场景的复杂度是更高的。从数据需求的量级而言,自动驾驶旨在取代“司机”这一职业,而具身智能则旨在取代千行百业,因此,其数据需求量至少将是自动驾驶的千倍以上。
数据积累的短缺: 尽管自动驾驶领域在数据上投入巨大,但其预训练数据在现实世界中是有存量积累的,已有的海量汽车不断在反馈数据。,我们更多的工作是对这些数据的处理(筛选、标注等)。但具身智能当前是本体和算法同步发明研发的阶段,缺乏任何存量数据积累。因此,具身智能的预训练数据是极其短缺的。这一点是其相对于自动驾驶的巨大差异,同时也构成了巨大的商业机会。
岑峰:仿真数据与真实数据的 “领域差距” 是具身智能的关键瓶颈。针对这些数据特点,光轮做了哪些创新来解决仿真与真实世界的差距?
杨海波:我们主要在四个方面努力,以解决保障仿真合成数据的有效性:
首先是追求物理真实。通过不断演进物理仿真,确保如冰箱的磁吸和阻尼这样的仿真资产和构建的场景不仅看起来真实,而且能够进行真实的交互。同时,通过采集真实世界的物理参数,如拉开冰箱门的力,来积累优势。
第二,强调人类示范。 在仿真环境下进行人工遥操(人的遥操),再对这些示范动作进行泛化,有效提升扩充数据规模。
第三是构建场景的多样性,仿真能够以极快的速度(一秒钟)扩充场景多样性。这种多样性对于训练 AI 至关重要,它能还原整个世界的分布,弥补真实采集场景的多样性天花板。
最后是数据闭环验证。我们具备可视化(VI)和反向训练能力,能够基于本体去验证合成数据的有效性,并不断提升和强调加强这种闭环验证能力。
岑峰:高总,具身智能的数据不仅仅需要训练感知,更需要训练决策和控制,而艾欧智能也更侧重于后者。在实际操作中,您是如何构建人形机器人复杂任务的数据集,以及如何从零开始解决训练决策和控制的问题?
高飙:您提出的这个问题非常关键。在我们 2023 年创业初期,整个具身智能行业,尤其是人形机器人本体的硬件,包括关节、电机、灵巧手、力控传感器等核心部件,都处于快速迭代但尚未完全成熟的阶段。在这种背景下,如果我们直接依赖特定的机器人本体去采集大量复杂任务的数据,将面临两个根本性的问题:其一,硬件的不稳定性会导致数据采集失败率较高;其二,硬件在快速迭代的过程中频繁升级,会使已采集的数据迅速过时,难以形成有效的积累。
因此,我们当时选择了一条与机器人本体解耦的技术路径。我们不直接采集机器人执行任务的数据,而是通过多模态传感器采集人类执行相同复杂任务的行为数据。
这种人类示范数据的路径有一个核心优势:人的数据是一个通用的中间媒介,它不受任何特定机器人硬件构型的限制。不论是早期不成熟的本体,还是未来升级换代的新机型,甚至不同厂商打造的机器人,都可以基于这套人类数据进行策略学习和行为模仿。这为我们构建可迁移、可复用的数据资产奠定了良好的基础。我们贡献的这部分高质量人类示范数据,也参与了当时由 Google DeepMind 主导的 Open-X Embodiment 数据集的构建,并在 ICRA 2024一场会议上获得了最佳论文奖,这从侧面印证了人类行为数据在具身智能研究中的重要价值。
当然,我们清楚当前国内市场主流的数据采集方式仍是通过遥操作或机械臂直接采集机器人本体数据。但今年特斯拉公布的数据路线,也表明他们将以人类第一视角视频和穿戴式设备采集为主,辅以部分真机遥操作数据。这种路线的官宣使我们看到,这种以人为媒介的范式正受到越来越多的研究者和行业的关注。因此,我们相信随着具身模型在跨模态和泛化性能力上的持续突破,由人类穿戴采集设备产生高质量行为数据的方式,在未来应具备更大的潜力。
岑峰:陈相宇羽陈总曾指出,“机器人缺乏数据飞轮闭环”,当前行业阻碍数据飞轮高效运转的核心瓶颈是什么?艾欧通过 “遥控操作对齐特定机器人构型” 的策略,如何加速这一闭环的形成?
高飙:如我一开场提到的,具身智能目前核心瓶颈是数据的不可复用性和采集的高门槛。真机采集成本高、迭代慢、有风险,导致数据积累效率低。
我们的策略是通过“遥操作 + 通用映射算法”来加速闭环:
针对全新构型的机器人,我们快速冷启动: 我们能在一周内完成构型映射的适配,快速启动训练数据采集。
模型部署后,在真实场景中出现失败案例时,可以通过遥操作及时接管和纠正,完成闭环迭代(纠错)。在这个过程中,就能采集到从失败中恢复的高质量反馈数据,反哺模型优化,形成数据飞轮的闭环。
03 产学协同与数据终局
岑峰:李老师,从数据采集到训练部署的闭环中,产学双方可以通过怎样不同的方式进行协同?
李弘扬:当前具身智能领域普遍面临数据短缺,高校的算力、硬件、数据资源有限,往往只能结合小规模仿真或有限真机数据来验证模型架构。我们期望能有像 Waymo 在自动驾驶领域那样的具有义务担当的公司,贡献出高质量的具身真机数据,但目前国内外尚未出现具备这种级别影响力的真机数据集。
现在行业沉浸在一种“虚幻的繁荣”中:大家热衷于发布炫酷视频和技术博客,但对核心的工程细节如数据量、训练 Trick、如何 Scale Up却“藏着掖着”。真正的 Live Demo 往往不起推敲,因为没有真正下场实践。
我认为产学协同应该更紧密:
在这种背景下,产学协同有几个关键点,首先是资源整合, 高校拥有算法和模型创新的能力,但缺乏大规模 Scale Up 的资源,需要依托拥有真机本体、仿真、动捕、互联网爬取等不同资源的企业,共同形成一个开放的素材或实训平台。
产学研的边界正在模糊,如果还抱着传统大学的思路,就会被时代淘汰。高校应该灵活拥抱变化,允许教师和学生深度参与产业合作,例如到创业公司担任首席或获取行业真实案例。
我们的最终目标是,高校追求影响力,企业追求盈利,两者互为补充,并不矛盾。高校可以作为 “Trainer”,培养基础技术人才,而企业提供 “真实的作业题”,让产学研结合更加紧密。
岑峰:您在 AgiBot World 开源后,有没有进一步和产业界进行合作的具体想法?
李弘扬:回顾自动驾驶的经验,伟大的数据集(如 Waymo、nuScenes)往往与一家拥有资源的、具有驱动力的公司强绑定,因为只有公司有资源和动力来做这件事(例如 Waymo、New THINGS)。
AgiBot World 在发布后,Open Drive Lab 团队将保持中立,AgiBot World 未来需要依靠整个 Community(社区) 来维护。我们团队倾向于保持中立,但未来计划与多方资源进行合作,例如硬件本体厂商提供真机采集,仿真和互联网数据公司提供合成数据和 Web Data,动捕公司提供行为数据,等等。
我们希望依托这些资源,最终形成一种开放式的素材平台或实训厂。尽管目前国内的新型研发机构还停留在比较初级的阶段,但我相信这是朝着好的方向发展。我个人仍对未来乐观,相信在未来一两年内,具身智能领域一定会迎来像 ImageNet 或 Waymo 那样的划时代数据集。
岑峰:您如何看待机器人领域中真机数据和合成数据的长期关系?
李弘扬:包括动捕、遥操在内的真机数据、仿真数据和互联网第一视角的 Web Data。这肯定是一个三者协同发展的关系。
在数据量上,Web Data 肯定最多,其次是仿真,真机最少,它不是一个固定的“数据金字塔”结构,三者的比例是可以调整的。
我认为仿真数据是非常必要的。 仿真数据在处理刚性物体(如 Pick and Place)时非常有效,但在处理对柔性物体(如叠衣服)等任务,仿真在短期内很难解决。因此,真机数据是不可或缺的。
长期趋势上,大方向是真机和仿真两个方向都要努力。真机团队要研究 Data Efficiency(数据效率)和 Low-Cost Efficient Data Collection System(低成本高效数据采集系统);仿真团队要攻克自身的痛点。终有一天两者会“会师”,届时主要问题将是调节比例和解决 sim to real gap。
岑峰:会师的时候是不是就是您之前提到的,真机数据普及化的具身智能的 ImageNet 时刻?
李弘扬:是的。具身智能目前还远远没到自动驾驶的下半场(以真车数据为主)。实现 ImageNet 时刻需要满足的条件是硬件稳定性与形态的统一,具身智能本体形态差异极大,从五六个自由度的机械臂到几十个自由度的人形机器人。只有等到硬件形态、灵巧手、视触觉等达到相对统一,真机数据才会有用。只有硬件的稳定性得到保障,形成了持久的影响力,才能被称为 ImageNet 时刻。
04 数据服务模式创新、仿真与训练整合的平台化
岑峰:杨总,在具身智能的领域,您认为仿真技术最终会发展成独立的一个产业链,还是成为一个标准化的工具,赋能所有的具身智能公司?光轮在这样的一个趋势下会怎么看?会做怎样的一个布局?
杨海波:我觉得仿真肯定是越来越受到重视了。相较于自动驾驶,具身智能对于仿真的需求更为迫切,要求也更高。这主要是由于具身智能面临着数据严重短缺和多样性场景获取困难等根本性问题,这些挑战可能只有通过仿真才能有效地解决。。
在现阶段,光轮仍主要根据客户的具体需求,提供定制化的仿真合成数据服务。同时,我们正致力于构建一个“仿真与算力相结合的平台”,旨在通过提供标准化的接口,直接服务于模型的训练过程。我们为什么可以做这个平台底层?是因为我们已经在仿真这块构建了很多 Benchmark ,定义了很多具身仿真的事实标准。
例如,我们提出了一个名为 “LW Ready”(光轮就绪仿真完备)的资产和场景标准。这不仅仅要求资产达到物理真实性(Physical Ready),还要求其能支持遥操作,并满足强化学习(RL Ready)的需求。基于这些积累的行业认知、经验和规范,我们正逐步构建这一仿真平台。未来,我们的服务模式可能将从单纯的“购买数据”转向“在我方平台进行训练”,即提供算力与数据整合的服务。,这是我们持续演进的方向,尽管目前仍处于为客户提供定制化数据解决方案的阶段。
岑峰:您提到的这种模式是类似于云计算这样的整合平台模式吗?
杨海波:是的,可以类比。
岑峰:光轮的仿真合成数据与世界模型生成的数据,两者之间存在怎样的关系?它们分别发挥着何种作用?以及光轮将如何规划其数据产品布局?
杨海波:这是一个行业普遍关注的焦点。我们的仿真合成数据实际上也服务于世界模型开发企业,这些世界模型在生成数据时往往缺乏物理信息真实,因此它们需要我们的数据来弥补这种物理信息的缺失,从某种意义上说,它们也是我们的客户。
刚才李老师也提到了数据金字塔,关于具身数据金字塔,我们的理解是:
塔底(量大价低): 例如视觉模型生成数据和互联网数据,主要用于预训练,目标是覆盖更广泛的多样性。
中间层: 仿真遥操合成数据,质量和成本适中。
塔尖(量少质高): 真机数据,质量最高,主要用于后续的微调(Finetuning)。
我们致力于成为一个以仿真合成数据为中心,提供全要素数据解决方案的供应商。这意味着我们不仅提供核心的仿真合成数据,其边界也将向上和向下扩展:向下延伸至服务视觉模型生成的数据,向上则会涉及真机数据。
岑峰:光轮将重点关注数据金字塔的哪一个部分呢?
杨海波:我们关注所有部分,但我们重点的技术和能力演进方向在于仿真合成数据这一层。虽然我们一定会涉猎真机数据等,但我们的中心始终聚焦于中间层,即仿真合成数据。
05 数据飞轮的构建:硬件演进与虚实融合
岑峰:请教一下高总,您认为未来的硬件,比如说像传感器、计算芯片的发展,会如何影响数据采集与处理的方向?艾欧是否已经针对这些趋势调整自己的一些工具链?
高飙:硬件无疑是具身智能这座大厦的基石,其演进必将深刻地影响整个行业的数据范式。未来的硬件发展将体现在以下几个方面:
首先,新型传感器将提升数据的维度和保真度。例如,更高分辨率的视触觉传感器、柔性电子皮肤等的出现,使得机器人能够获得更接近人类的感知能力。这些传感器不仅能捕捉触觉、滑动、材质等细微信号,还具备高动态响应能力。这意味着我们采集到的数据将不再是简单的动作和图像,而是包含越来越多丰富的物理交互的多模态数据流。我们正在持续更新工具链,以支持这些新的模态数据,包括时间同步、数据预处理等功能,以及针对触觉、力控信息的数据可视化和标注工具,帮助研究者和客户更好地理解和利用这些提升后的数据。
其次,随着传感器硬件的成熟,其成本下降和普及也将是一个必然过程。例如,平价激光雷达的出现,使得终端机器人也具备了 3D 环境感知能力。这种传感器的普及要求我们的采集系统具备更大带宽的存储和数据处理能力。
第三,边缘计算能力的提升使得“边采集边处理”成为可能。例如,我们在自研的动捕服中集成了端侧预处理模块,能够在采集数据的过程中实时完成姿态解算、传感器抗干扰和系统监测等功能。这些硬件能力的提升,不仅提高了数据质量,也显著加快了后续数据后处理的效率,让数据采集本身更高效、更闭环。这是推动具身真机数据成本逐渐降低,并最终迎来李老师所说的 ImageNet 时刻的必备条件。随着具身行业硬件的推陈出新,我们的工具链也在不断地成长和完善。
岑峰:在具身智能的数据飞轮这样一个过程中,合成数据如果要成为独立的一个商业化产品,艾欧作为全链路的服务商将会扮演怎样的一个角色?
高飙:我们判断,在未来相当长的一段时间里,具身智能的发展将依赖于真实数据与合成数据的协同驱动。纯粹依赖真机采集成本高、速度慢;而单纯依赖合成数据则会面临 "Sieem to Real Gap"(仿真与真实世界的差距)和物理真实性等挑战。我们认为更可行的路径是构建一个虚实融合的高效数据闭环:用少量高质量真实数据冷启动,通过合成数据进行大规模增广,在仿真环境中验证策略,最终再回到真实环境部署并收集反馈,形成持续迭代的数据飞轮。
在这个闭环中,艾欧希望扮演一个类似于连接器的角色。我们看到了几个核心机会点:
第一,将真实世界的采集能力迁移到仿真环境。目前很多模型依赖强化学习在仿真中试错,效率较低,且奖励函数难以覆盖复杂的长尾任务。艾欧积累的遥操作和多模态数据采集工具链,可以复用到仿真环境中,让人类操作员在虚拟世界中遥控仿真机器人执行任务,生成高质量的专家示教数据。这种“人在环路”的仿真数据生成方式,能够在合成数据中保留人类真实操作的动作和决策逻辑。我们正与光轮等伙伴合作推进,打通动捕遥操作系统与高保真仿真引擎,构建虚实结合的数据生成流水线。
第二,成为合成数据的质量验证方。当合成数据成熟到可以 API 形式对外服务时,如何评估其质量将成为关键。我们认为,真实世界采集的高质量人类示范数据或真机行为数据,应该成为衡量合成数据可信度的标准。艾欧长期积累的不同机器人构型、多模态、多任务真实数据集,可用于构建 Benchmark,评估不同合成数据源在任务成功率、行为合理性及物理一致性等方面的性能。未来,我们计划开源更大规模的数据集,共同推动具身行业的发展。
岑峰:从艾欧的视角上看,要突破哪些目前被忽视但是又很关键的问题?
高飙:在达到通用智能体这个终极目标之前,还有很长的路要走。我们认为,当前被忽视但又很关键的问题是:找到一个能让“商业闭环”和“数据闭环”同时存在的落地方式。
目前,单纯为了采集数据而搭建数据采集场的模式,成本极高,很难通过这种模式达到 ImageNet 时刻。我们认为,需要有一个商业闭环的过程,让机器人首先在真实环境中“用起来”。
举例来说,即使机器人在工厂拧螺丝的效率(如 70%)暂时不如人类工人,但它在工作中同时产生真实场景的数据。这些数据对于模型公司和本体公司而言,是极有价值的资产。机器人在当前工作效率不及人类时,其产生的数据价值加上其工作价值,可能超过一个单纯的人类岗位所产生的价值。
通过这种方式,让机器人在真实环境中先运行起来,积累数据,进而在一些垂直场景跑通具身小模型(如商超模型、医院模型)。通过真实的商业闭环和数据的反哺,不断迭代,这才是最终通向通用智能体出现的前置阶段。
06 观众问答:长尾数据与服务场景的挑战
岑峰:有观众提问,具身智能领域应如何解决数据长尾问题?
高飙:数据长尾问题在技术和学术层面尚未获得根本性解决,即便是已进入下半场的自动驾驶行业亦是如此。长尾问题涉及地面低矮障碍物、各种不规则的掉落物等难以穷举的场景。
鉴于长尾问题在根本上难以消除,我们只能通过工程化策略和落地实践来缓解。主要的解决途径包括:
数据层面的增强: 以真实数据为基础,利用仿真技术进行数据增广,特别是在真实环境难以模拟的情况下,可完全采用合成数据来生成长尾场景,以增加数据量。
主动探索与失败注入: 在真实数据采集中,不仅要记录成功的案例,更要主动设计和诱导异常、失败案例。例如,在一个收拾玩具的任务中,故意诱导机器人抓取失败,然后记录其从失败中恢复并重新拾取的完整动作,这种“失败数据注入”能有效缓解长尾问题。
模型学习方法创新: 引入小样本学习(Few-shot Learning)或元学习(Meta-Learning)等新方法,使模型具备快速适应和举一反三的能力,例如通过一到两次的人类示范,快速启动新的长尾任务。
解决长尾问题需要数据和模型学习方法两个维度共同努力,构建一个持续收集长尾数据并反哺模型的飞轮。从学术角度根本解决此问题,仍需长期努力。
岑峰:杨总,您对于长尾问题有何补充?自动驾驶的 Corner Case 与具身智能的长尾数据有何异同?光轮如何应对这些挑战?
杨海波:在自动驾驶领域,我们主要通过合成数据解决角点案例(Corner Case)。合成数据的核心优势之一就是处理这些罕见且关键的案例。鉴于我们已大规模服务于国内外头部车企,我们认为这在自动驾驶中是行之有效的解法。
不过,我倾向于将其称为“长尾场景数据”而非“角点案例”,因为后者常给人以稀少的感觉,而实际上它是一个非常庞大的长尾分布。对于具身智能而言,当前仍处于发展早期阶段,数据积累不足,因此探讨长尾问题尚为时过早,长尾现象通常在模型进入后续训练(Finetuning)阶段才会显现。
岑峰:具身智能在服务业有巨大需求。艾欧如何看待并实现类似护工这类需要与人互动的垂直场景?
高飙:在当前阶段,单纯依靠 AI 模型来处理护工与人的互动是比较困难的。用户期望机器人具备人类情感,但目前大语言模型的交互效果与公众预期仍存在差距。
从我们的实践来看,一种更为落地的方案是采用人机协同的远程遥操作。即机器人背后由真人控制,通过摄像头和麦克风与病人实时交互。这种模式能让患者感知到机器背后有真人的存在,从而在接受护理服务时更为安心。
尽管目前市场上也有利用 AI 模型进行情感陪伴的产品,但多数大型语言模型的用户数据显示,将其用于情感交流和倾诉的比例很低。目前 AI 陪护应用更适合心智尚未成熟的儿童,例如 AI 陪伴玩具,这是 AI 完成陪护任务中较为落地的场景。
岑峰:杨总,对于具身智能在服务业的落地,您如何从数据角度实现闭环?
杨海波:在这个问题上,仿真和合成数据是放大器和加速器。当一个预训练模型需要进入特定服务场景进行后续训练时,传统方法是直接在真实场景中采集数据。
我们更倾向于采用 “Real to 2Sim”(真实到仿真)再到 “Sim to 2Real”(仿真到真实)的路径:
Real to 2Sim: 将目标服务场景(例如医院病房)在仿真环境中重建出来。
Sim Training: 模型首先在仿真环境中高效地进行大规模训练。
Sim to 2Real: 模型训练成熟后,再部署到真实环境进行微调。
这种方式能极大地加速和提高效率。同时,我也认同高总的观点,在模型尚不稳定的现阶段,一定程度的遥操作是必要的,它既能保障操作安全,也能在实践中持续收集高质量数据,从而驱动数据飞轮高效运转。
岑峰:感谢两位嘉宾们的深入讨论。最后,请嘉宾用一句话总结今天的讨论,并展望具身智能数据的未来。
杨海波:仿真合成数据是通往具身智能的必经之路。
高飙:具身智能的未来不在于谁拥有最多的数据,而在于谁能够最快地让数据飞轮转起来。艾欧智能愿意成为推动数据飞轮转动的第一推手。
//
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载! 公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。