无缝切换!Figure机器人学会自主“叠衣物”,Helix架构无需任何修改,只添加新数据
发布时间:2025-08-24 15:46 浏览量:2
美国明星机器人公司Figure AI又整新活儿了。
今天,Figure AI官方发布了一个全新演示视频,号称人形机器人界的首次尝试:首个拥有多手指的人形机器人,能够利用端到端神经网络完全自主地折叠衣物。
叠衣服对人类来说可能平淡无奇,但对于人形机器人来说,却是最具挑战性的灵巧操作任务之一,具体而言,本次演示中的Figure机器人也仅仅是在叠毛巾。
毛巾易变形,形状不断变化,弯曲难以预测,而且容易起皱或缠结。它没有固定的几何形状需要记住,也没有单一的“正确”抓握点,即使是手指轻微的滑动,也可能导致毛巾起皱或掉落,想要成功,不仅需要Figure机器人准确地观察世界,还需要精细协调的手指控制,以追踪边缘、捏住角落、抚平表面,并实时调整。
值得关注的是,Figure AI方面表示,其解决逻辑任务的Helix架构(其开发的视觉语言动作VLA模型)可直接应用于衣物折叠,无需修改模型或训练超参数,唯一的变化是增加新数据集;除了折叠之外,Helix还学会了与人互动时保持眼神交流、引导视线以及运用手势。
快速进化的通用具身模型
这次演示的新技能距离上次机器人往洗衣机里塞衣服仅仅过去两周时间,机器人学习一项新任务的速度正在越来越快,而且操作依旧非常丝滑,而不是慢吞吞的各种卡顿。
网友们表示,虽然它现在还不能真正完成洗衣服、收衣服、叠衣服的操作,而且形状统一的毛巾和整理各类混合衣物的难度完全不一样,比如毛巾、床单混杂着外套、裤子之类的杂七杂八的东西,但这种进化速度让人感觉很快就会实现。
在没有任何架构变化的情况下,Helix学会了从一堆混杂的毛巾中挑选毛巾;根据起始配置调整折叠策略;通过退回多余的物品来恢复多重挑选错误,在完成折叠之前,Figure机器人采用了仿人的操作技巧,例如用拇指描边、捏角或解开缠结的毛巾。
Helix实现所有这些功能时,并没有明确的对象级表征,对于像毛巾这样高度可变形的物体,构建这样的表征既脆弱又不可靠,相反,Helix完全采用端到端的方式运行:从视觉和语言输入到流畅、精确的运动控制。
为什么这很重要?这证实了通用架构和相同的物理平台,可以无缝衔接从工业物流到家务的场景,随着扩大现实世界数据收集的规模,Helix的灵活性、速度和泛化能力有望在更广泛的任务范围内持续提升。
比跳舞更难的“叠衣服”
人形机器人行业目前给人一种“错觉”,机器人们能跑、能跳、能翻跟头表演,但是干起活儿来却略显笨拙且效率不高。
本质原因在于,让机器人学会叠衣服干活儿比跳舞难多了,两者对机器人的感知、决策和操作能力要求存在本质差异。
跳舞本质是预设动作的精准复现:通过编程设定关节运动轨迹、节奏和协调性,机器人只需按设定好的逻辑执行,即使是复杂舞蹈,核心仍是“按剧本动”,而且环境通常是固定的(如平坦地面、开阔空间、无障碍物等),无需应对突发变化。
而叠衣服是动态场景下理解并处理复杂物体的过程:衣服是柔软、易变形的非刚性物体,形态(皱巴巴、缠绕)、种类(衬衫、袜子、裤子)、摆放位置均不固定。机器人需要先“看懂”衣服再“规划动作”(从哪里抓起、如何铺平、折叠顺序),还要“适应变化”(比如抓起时衣服滑落、折叠时边角偏移),几乎每一步都依赖实时感知和动态调整。
此外,跳舞的操作对象是机器人本体关节,更多属于运动控制层面问题:通过电机精确控制角度、速度即可实现动作,对误差容忍度较高一些,只要不倒,舞步稍偏一点不影响观感,此外,对外部感知的负担也比较低。
而让机器人对非刚性物体进行精细操作,至今仍是机器人学的经典难题,因为不仅需要多模态感知融合,而且机械手的灵活性和触觉感知仍远不及人类手指,机器人需要从视觉、触觉乃至力觉多维度出发进行实时感知决策,对图像识别、三维重建、力控算法的要求都非常高。
目前业内公开展示的人形机器人+灵巧手完全自主叠衣服的操作也并不多,能让机器人兼顾流畅度高、操作速度快的厂商更是凤毛麟角。
例如国内的千寻智能和美国的知名具身创企Physical Intelligence就多次展示机器人叠衣服的长程任务过程,但是属于双机械臂和抓手的操作。
与Physical Intelligence有合作的国内厂商星辰智能也在其官网上也展示了叠衣服的片段。
优必选此前也曾发布过人形机器人Walker S通过语音交互使用灵巧手叠衣服的演示,不过优化了不少复杂识别操作环节,让机器人从一个相对平整的目标衣物开始操作。
如今,网友们希望看到的是更有“难度”的长程操作:将多种形状和摆放方向不同的衣物放入托盘,让机器人从1号位置的杂乱箱中抓取衣物,移动到2号位置(桌面上)铺平折叠,再将毛巾整齐到指定的C位置(收纳篮、置物架)的一个或多个堆叠上的过程。
马斯克也曾展示过特斯拉“擎天柱”机器人(Optimus)的叠衣服操作,虽然引起了广泛关注,但马斯克自己直言:Optimus尚不能自主地做到这一点。
各家PK下来,像Figure人形机器人这样全流程操作丝滑叠毛巾的,目前来看确实算是个行业标杆,除了PK跳舞、奔跑,让机器人进行精细任务的长程操作其实才该是业内真正该竞逐的重要目标,毕竟,机器人未来是要替代人类干各种活儿的。
竞逐机器人的“ChatGPT”时刻
不过,“人形机器人叠衣服”的操作也遭到了不少网友调侃,因为这个概念其实并不新颖,早在多年前就有很成熟的“叠衣机”技术方案,而且速度要比如今的人形机器人可高多了,“人机协同”下一分钟能叠好多件,人形机器人何时能实现这种效率可谓任重道远。
在近期的世界机器人大会期间,宇树科技王兴兴也直言,行业存在“对数据关注太高、对模型关注太少”的问题,现有机器人系统功能碎片化,“每个场景都需要单独训练模型,导致通用性不足”。
他认为,目前机器人硬件是完全够用的,但具身智能的AI仍完全不够用,构建统一端到端的具身智能大模型被视为是未来2-5年的技术重心之一。
王兴兴的预判正在发生着,国外知名厂商对具身模型的改进正在进入新阶段,除了Figure机器人搭载的Helix架构模型,Physical Intelligence、Skild AI等也在打造具身智能的“通用大脑”,致力于通过一个基础模型适配多种机器人硬件和任务,避免为每个任务单独训练模型。
机器人领域的“ChatGPT时刻”正在到来,国内厂商是时候把注意力从各种炫技转移到更关键的技术突破上了。