银河通用王鹤:VLA相当于机器人的「义务教育」
发布时间:2025-06-09 21:34 浏览量:2
在近日的北京智源大会上,北京大学助理教授、北京银河通用机器人创始人兼CTO-王鹤,在备受关注的「具身智能与人形机器人」论坛上发表了演讲,详细介绍了VLA对于机器人智能发展的作用,以及银河通用目前所做的工作。
RoboX对其演讲内容进行了整理提炼,供大家参考。
简述VLA
通用机器人的本质,是通过具身智能驱动高自由度的仿人本体。它不能只做某一件具体的事情,而是要服务千行百业,千家万户。
面对这样的目标,王鹤认为,VLA(Vision-Language-Action Model)的应用是一个重要转折点。
他介绍称,VLA的输入是人类的自然语言指令,这也是实现通用的一个关键点,比过去的复杂指令更加通用。
另一个重要的模态是视觉:视觉占到了人类日常信息输入量的80%以上。所以要想实现通用机器人,先纳入视觉模态是非常重要的。
模型的输出是Action。在谷歌的RT-2框架中,模型直接生成Everyday Robot末端执行器的瞬时三维平动和三维旋转。该动作指令可通过逆运动学(IK)求解器转换为关节空间的目标位姿,最终由PID/PD控制器驱动执行机构完成运动控制。
王鹤表示,如果类比人体的运动控制及脑部系统,VLA用于实时生成轨迹,控制则交由机械臂,做IK后再基于positional(位置信息)执行。所以VLA不是「小脑」,更多的是「大脑」。
今天的VLA强调快速的闭环反馈,它的频率从刚开始的3赫兹,到现在最快可达50赫兹甚至更高的反馈频率,这就是大脑中的快系统。而一些逻辑推理和长程规划的东西,它会思考得更慢。
为何不能押宝真实数据?
目前,国际上训练VLA最主流的方式,是通过真机采集大量的遥操作数据,例如特斯拉的遥操工厂、斯坦福大学的ALOHA等等。
“现在市场或政府都在讨论要不要建大型的遥操场,到底要建多少才够。我们可以先看一下自动驾驶使用的‘人类的遥操数据’——既然车就是机器人,那方向盘就是遥操的主臂,人就是遥操员。”
王鹤表示,如今的头部车企,会有约百万辆级别的车每天在路上跑。按照15-30秒是一个clip的标准,日回流量为上亿clips;而目前具身智能最大的数据集约为100万-200万clips的数据集。
车的自由度只有两个:方向盘+油门刹车。而人形机器人的一条手臂就有六七个自由度,一只灵巧手有20个自由度,全身加起来有接近百个自由度。
如今的头部人形机器人厂商,包括银河通用,在真机数据采集这件事上,与汽车百万台的数量中间存在巨大差距,这就是为什么不能够完全押宝真实数据。
“如果想押宝真实数据,就得先把人形机器人量产到百万千万台,然后再让百万千万人去做数据采集。这一点会让人形机器人或者VLA的发展陷入长期的无法落地的状态。”
如何训练端到端VLA?
王鹤指出,在此背景下,最主要的学术观点就是用合成仿真数据解决难题——银河通用正在从机器人与物体间的交互,以及灵巧手抓取标签和轨迹中,研究视觉层面仿真和现实之间的差异(Sim2Real Gap),并且在仿真器中通过大量的强化学习,自主探索灵巧手抓取的方式。
今年,银河通用构建了一个完全用合成数据训练的具身端到端VLA大模型。
王鹤称,它背后是数10亿级别的机械臂抓取的轨迹帧,每一帧都有VLA label。并且,这些数据覆盖了桌面上可能出现的各种物体及相关信息:包括名字、材质、形状、堆放方式、光照背景,桌子颜色纹理,以及其他变量等。
与DeepSeek千亿万亿级别的参数量不同,银河通用的GraspVLA模型,是一个几十亿参数的端到端快系统。
该模型的训练特点,是在输出时用到了「具身思维链」:“比如‘拿起盒子’的动作,我们先输出一个2D的Bounding Box(边界框),再用该输出去进一步思考如何做6D Grasping Pose。这两个输出本质上都是Auto-Regressive(自回归模型)中的离散Token,基于它们,可以用Flow Matching的Action Expert,去输出七自由度的Delta Action。就和Google RT-2一样,Delta Action可实现瞬时平动,瞬时转动和瞬时夹爪的闭合。”
王鹤表示,GraspVLA是第一次将2D Bounding Box、6D Grasping Pose引入作为思维链(CoT),最终输出Delta Action的。
数据价值与测试效果
GraspVLA首先采用的就是合成数据,由于这些数据将物体的2D Bounding Box标签、6D Grasping Pose的抓取标签,动作轨迹标签等融在一起合成,从而可以保证其一致性。
但是,合成数据毕竟不能囊括物理世界的一切信息,所以银河通用也在使用互联网的图文视频数据。这些数据也被加以注释和描述,约有一亿数据也做了Bounding Box的注释,这些数据会与合成数据进行混合训练。
“互联网的很多数据没有Action标签,只有Bounding Box标签,所以我们的模型就只训练到第一步Bounding Box,并不输出CoT和Action。经过这样的混合训练,我们可将互联网上所有的感知、视觉和语义全部吸纳进来。”
王鹤指出,经过训练,银河通用的VLA端到端模型产生了非常强的零样本泛化能力——经过与π0(PI发布的具身智能大模型)对比,在全新的环境中,π0需要在指定的测试环境中进行一定的数据微调才能工作,而GraspVLA则完全不需要微调,成功率还比前者更高。
“π0只用到了100万到几百万规模的数据集,而且还是一个‘很脏’的数据集,包括一些跨本体、多形态的机械臂、人形、轮式混在一起。我们则是单一机械臂的大规模高质量物理仿真数据集,对于光照背景、物体位置、平面高度、开放词汇类别、闭环、鲁棒性,都有充分的零样本的泛化性。”
王鹤举了一个「抓取玩具鸭」的案例,输入的语言指令就是「抓一个鸭子」,同时随机采取了各种干扰方式,夹爪还是成功夹起了目标。他认为,这足以证明GraspVLA不是一个开环的模型。
对于该模型的架构和数据,银河通用也进行了机制消融实验。
“π0的模型只用仿真数据,因此它直接输出Action,成功率没有想象的那么高,在真实世界只有20%。而我们的仿真数据用到了2D Bounding Box、6D Grasping Pose的全部标签,成功率在真实世界达到了93%。”
王鹤还表示,如果和π0.5这种多任务平行训练的模式相比,采用CoT的VLA成功率高了20%以上。
“上述成果都是基于全合成数据。如果你给我真实世界的动作数据,只会让我更强。”
在「零样本泛化」层面,他举了个例子——在针对某品牌矿泉水进行训练时,货架上一排摆了4瓶,一共5排;而测试时变成一排3瓶,一共4排,位置大小、高度、颜色,盖子的直径全变了。
“如果只是简单记忆,肯定是会抓错的,而我们现在能够零样本的泛化在新的饮品上。这就意味着,如果需要进厂或进店培训,可以在一类样品中只培训一个,它就自动在同类物体之间泛化,这样的VLA才能成为老百姓或是工厂超市用得起的技术。”
VLA是「义务教育阶段」
王鹤认为,这种采用合成数据的具身端到端VLA训练新范式,相当于人类的义务教育——它能将一项技能在十亿百亿规模的数据中进行充分学习,在彻底学会以后,就可以真实世界用很少量的数据进行简单培训,这相当于职业教育,让机器人能够举一反三地执行真实场景的任务。
他介绍称,在「货架取物」的任务中,过去是基于视觉,对抓取Pose进行估计,再进行轨迹执行。这需要把商品放得稀疏一些,因为轨迹规划必须要避障。
而在银河通用的实际操作中,货架上的商品种类繁多,形态各异,从瓶装水到真空包装的卤蛋都有,而且灯光、展区、物品位置都和测试布置完全不一样。“这一看就是闭环的模型。”他说道。
灵巧手+VLA的效果
除了展示的二指夹爪,银河通用也对灵巧手进行了长时间测试。
“今年我们用自研的合成管线,第一次将33种人类抓取模式全部覆盖:使用剪刀的手势、持针抓的手势等等,这些数据全都能合成。“
王鹤说的这套基于数学优化和物理仿真的全链路合成管线,能够GPU并行地产生大量的灵巧手抓取数据,覆盖上千万个不同的物体的抓取。而且还不仅限于抓取,还有各种各样的操作。
例如叠衣服的任务,从帽衫、跨栏、背心、长袖、短袖、无袖、长裤、短裤,各种纹理的衣物,都能够大规模合成数据,从而进行非常长程的示范学习。
从王鹤演示的视频来看,灵巧手在叠衣服过程中,即便面对种种干扰也还是继续完成了任务。
另外,其合成数据还覆盖了自然语言视觉、自然语言导航、寻物,跟随人等等。其中,在复杂环境中,听从复杂指令跟随人的示范非常有趣:
“在从来没见过的场景里,没有SLAM,没有定位建图,机器人能在陌生环境中服从一个非常长的指令,例如Move to the man on the right side,then follow the man until you see a sofa。”
在示范视频中,可以看到收到该指令的机器狗,跟随一个人直到沙发边,然后便停止跟随。另一个案例中,即便人都在拐角处走出视野了,机器狗还能继续转弯跟随,而且在商场的复杂环境中也没有失误。
“这就是端到端方案的效果。头部车厂是单天回流1亿条clips,可是总不能找100万人去操作机器狗,所以这其中全合成数据。”
已开始常态化运行
目前,这些VLA端到端模型的技术,已经在零售、接待、康养和工业领域中逐步落地。
例如在24小时药店的货架区和柜子存储区,银河通用已经部署了人形机器人进行取货工作,这样的店已经常态化运行7家。
关于「全人形」的工作
全人形机器人无疑是更难的,而银河通用也已经在全人形上开展工作。
“现在我们基于强化学习端到端全身控制的遥操,不仅能蹲,还可以向前前倾,能抓握地面上的东西。我们也在各种各样的环境中去做全身遥操,并且全时维持身体的平稳。”
这就是银河通用联合清华大学弋力助理教授团队发布的OpenWBT,这是一款全开源、多机型、跨虚实人形机器人全身遥操作系统。
王鹤介绍称,该方法将原子技能进行编码、解码,再把中间串联的连接,通过强化学习构成技能组合。
“大家只需要大家用VR头显、手柄,笔记本就可以轻松搭建。它既能在真实世界里遥操,又能在仿真世界里遥操,还可以跨机型。”