波士顿动力“旧”技术的新应用:人形机器人远未达到极致

发布时间:2025-06-10 16:38  浏览量:1

近期,波士顿动力Atlas机器人重磅升级,已经具备3D空间感知和实时物体追踪能力,让人形机器人真正拥有开始“看”世界的能力。

同时,Atlas表现出超乎寻常的运动流畅性,其背后涉及到的部分技术、理念让人着迷。

从浮夸走向实际

人形机器人在工厂、仓库甚至家中执行的大量复杂任务,涉及的核心能力包括几个方面:1)感知其与环境的接触状态。2)估计其基础框架的姿态和速度。3)计划何时移动其末端执行器。4)计划将其末端执行器移动到哪里。5)计划如何移动其末端执行器、质心和身体。

为了灵活且适应性强地完成这些任务,人形机器人需要一个同样灵活且适应性强的感知系统,需要理解世界的几何和语义属性——即与其交互的物体的形状和关联。目前除了Atlas,还没有任何一个人形机器人,能长期、反复在一个工位上执行动态任务,敢于一镜到底的展示几乎看不到。这表明了在这些领域,全球人形机器人的技术仍然还远未达到极致。

全电动版人形机器人Atlas在波士顿动力2024年4月正式推出以来,陆续推出的多个视频少了很多浮夸的动作展示,而是尝试聚焦在一个固定的场景上,新Atlas进行一个看似非常简单的任务:拿起汽车零件并将其放入到移动料箱正确的位置上。也就是从零件排序开始,解决真实问题。

这种零件排序其实是汽车工厂及类似制造环境中常见的物流任务。在汽车工厂中,许多不同车型和内饰级别的汽车在同一条生产线上组装;安装人员需要按正确的顺序为每辆车配备正确的单个零件。排序是一个预处理步骤,用于根据当天组装的汽车正确排列这些零件。

数以千计的零件从供应商处流入这些制造工厂,装在单个 SKU 容器中,每个容器都包含一个零件变体;然后,工作人员取出这些零件,并根据生产线的需要,按照正确的顺序将它们重新分类到输出小车上。

Atlas近期展示的视频中,其实每一次都有不足,但每一次却也都有进步。减少浮夸,真实探索落地场景的更多细节,将技术持续推到极致,这或许才应该是人形机器人的实际路径。

长程任务难点拆解

让人形机器人全自主在一个场景长期进行任务,难度除了精度、鲁棒性、续航等基本物理性能要求,更进一步是对于任务执行步骤的持续打磨优化,也就是让机器人能更好这个任务,最终真正像人类一样。

但这并非易事,零件排序涵盖了许多核心问题,这种实际场景任务落到人形机器人上,需要分解成多个步骤,每个步骤都需要机器人对环境有深入的了解。例如任务的多样性。完整的零件排序解决方案需要 Atlas 能处理数千个不同的零件,并完成不同类型的拾取、搬运和放置任务。这些零件尺寸各异、形状不规则,重量也各不相同。

又例如抓取行为的复杂性。排序是一个长程多步骤行为,需要高度可靠性,Atlas 需要了解拾取、传输或插入过程中可能出现的所有不同错误,识别其中任何一种情况,并知道如何处理。还有例如环境复杂性。真实的工业环境中,可能混乱且复杂,涉及许多移动的部件和意外的状况。

但如果一个人形机器人需要耗费大量精力来编写每个边缘情况的程序,需要频繁的人工协助,或者容易损坏零件,那它就毫无价值!

想要执行零件排序这类长程任务,将任何一个环节不断趋于最优值,才有希望组合达到更完美的机器人任务方案。而波士顿动力一直就在做这件事。

首先,Atlas会检测并识别所抓取物体。但问题在于工厂里的许多零件要么是闪亮的金属,要么是低对比度的暗色物体,这使得机器人的摄像头难以清晰区分。其次,Atlas需要推断物体的位置以便抓取它。最后,Atlas会在拾取物体后,决定将其放置在哪里,以及如何将其送到那里。

因为工厂环境是动态变化的,所以工作人员还会不断调整变量。而且Atlas必须精准地放置物体,因为任何方向只要有几厘米的偏差,物体就可能卡住或掉落。所以Atlas还需要能够在出现问题时,采取纠正措施。这也是人形机器人必须达到的目标,但是国内少有人重视这些细节环节。例如,如果插入失败,人形机器人是否可以从地面搜索并拾取掉落的部件,并且重新捡起来?

想要突破这些工厂环境的挑战,人形机器人需要在感知系统进一步升级。例如需要更具通用性的基础视觉模型,能识别处理各类工厂零件,又例如机器人本体需要更强的机器学习感知模型,以及强大的位置、状态估计能力。

波士顿动力的“传统”解法

波士顿动力怎么解决类似物料搬运插片类似问题?

从视频中可以看到,他们采用了机器人视觉引导技术,这是一种在工业机器人与传送带协同较为成熟的技术,也就是多个二维像素标记点的使用。但正是这种并不复杂点线面的系统重构与使用,融合视觉语言模型(VLM),提高Atlas人形机器人的实时感知能力。

Atlas将障碍物或者抓取物的角点视为关键点,为每个物品分配边界框和关键范围,从而基于外部关键点捕捉物体的包络线,能够将感知到的世界与其固定装置外观的内部模型进行匹配,从而计算物体类型、所占的体积、形状、尺寸和抓取力。再结合内部多个标记点,判断区隔、分布、堆叠等信息,重构拾取和放置位置的参考坐标。为了执行固定装置分类和关键点预测,Atlas还使用了一种轻量级网络架构,在性能和实时感知之间取得了平衡,防止过热风险。

除了基础的位置识别,导航与抓取更需要3D模型的建立。为了抓取固定装置内的物体,Atlas首先会估算自身相对于该特定固定装置的位置。Atlas依然是使用基于关键点的固定装置定位模块来判断自身相对位置和方向。

这套固定装置定位系统从物体检测流程中提取内部和外部关键点,并通过最小化它们的重投影误差,将它们与预期空间分布的先验模型对齐。同时系统提取运动里程计,用于测量Atlas的移动速度和方向,以将固定装置姿态估计融合到一致的帧中,从而提高关键点噪声预测的可靠性。

实现可靠固定装置姿态估计的关键挑战在于处理频繁的遮挡和视野外的关键点。例如,当Atlas靠近固定装置时,一些外部关键点可能不在视野范围内。倾斜视图也具有挑战性,因为较远的关键点通常不可靠。定位系统通过感知固定装置内部(插槽分隔线之间的角点)的大量关键点来解决这个问题,这些关键点与物体的插入或提取方式直接相关。

这就产生了2D关键点和3D角点之间的关联挑战——图像中每个关键点对应哪个角点?Atlas根据外部关键点进行初步近似,从而可以对内部关键点关联做出初步猜测。然后,内外关键点的组合可以对固定装置及其所有插槽的姿态进行更可靠的估计。

Atlas强大的物体操控技能依赖于准确、实时的以物体为中心的感知,评估该零件的拓扑结构确定如何操作以及将其放置在何处。Atlas的物体姿态追踪系统SuperTracker融合了不同的信息流:机器人运动学、视觉以及必要时的力。来自Atlas关节编码器的运动学信息使其能够确定Atlas的夹持器在空间中的位置。

例如当Atlas识别出它已经抓住了一个物体时,这些信息可以为Atlas在移动身体时物体应该在的位置提供强有力的先验信息。通过融合运动学数据,Atlas可以处理物体在视觉上被遮挡或超出其摄像头视野的情况,并在物体从其抓握中滑落时通知Atlas预判具体情况。

万一当物体滑落时,或者物体位于摄像头视野范围内时,机器人会被动地运行相同的视觉模型,通过物体姿态估计模型,也就是如果在正常运行过程中检测到物体脱离夹具,则可以触发前述相同的行为,采用渲染与比较方法,从单目图像中估计姿态再次抓取物体。

该模型使用大规模合成数据进行训练,并基于CAD模型将零样本模型推广到新物体。也就是未来在物体的识别以及抓取环节,机器人会使用3D姿态先验进行初始化,而后该模型会迭代地对其进行优化,以最小化渲染的CAD模型与捕获的摄像头图像之间的差异。

姿态估计器也可以使用二维感兴趣区域先验进行初始化,之后,Atlas会生成一批姿态假设,并将其输入到评分模型中,最终优化出最佳拟合假设。简单来说,当物体位于摄像头视野范围内时,Atlas会使用一个物体姿态估计模型,该模型采用渲染和比较的方法,从单目图像中估计姿态。

当使用3D姿态先验进行初始化时,该模型会迭代地对其进行优化,并使用一系列过滤器来验证这些姿态估计,以最大限度地减少渲染的CAD模型与捕获的摄像头图像之间的差异,从而最终使得机器人能够应对其运行环境的细微变化和宏观变化。

老方法的新作用

在这套动作展示中,我们看到了机器人前所未有的流畅性,减少了大部分的抖动。一般而言,多传感器融合后,会导致多系统的耦合出现较多的冗余,因为机器运算速率很难跟上快速处理先进传感器的数据量。但波士顿动力相对采取了一套成熟的老方法,精简代码集以提高运算速率。这种双层分析架构使 Atlas 能够以惊人的精度定位单个槽位。感知模型实时运行,确保 Atlas 能够在性能和速度之间保持平衡,这对其动态运动至关重要。

通过为每个物品分配边界框和关键点,Atlas 可以有效地绘制其环境地图。在工业环境中,它经常会遇到形状和尺寸各异的存储装置。这些装置使用关键点进行剖析,外部关键点定义物体的大致形状,内部关键点则精确定位内部槽位。

为了使不同层级架构数据匹配,官方的解释是依然使用了较为传统的机器人固定滞后平滑器进行运动学和相机输入的异步处理。该平滑器会收集来自Atlas关节编码器的高速运动学输入历史记录,以及来自机器学习模型的低速视觉姿态估计,使用一批扰动初始化而不是单一姿势先验,并确定最佳拟合的6自由度物体轨迹即可。

为了确保人形机器人动作与视觉相机建图的一致性,Atlas还有一个类似工业机器人的额外类似校准程序。也就是在执行排序等精确操作任务时,Atlas会有一个短暂的类似工业机器人重定向流程。这背后是一套精心设计的摄像头和运动校准程序,用于补偿机器人身体制造和组装过程中的不精确性,以及由于温度变化或反复物理冲击等外部因素造成的物理变化。

良好校准的手眼协调有利于帮助Atlas将所看到的内容与Atlas的行为方式之间达成精确可靠的映射,准确的手眼校准也是实现高性能操作和感知驱动自主的关键因素。Atlas 的空间记忆和上下文理解能力更进一步增强了该系统,使其能够区分看似相同的夹具,这在杂乱的工业环境中至关重要。

结语与未来

波士顿动力依然旨在“开发世界上最先进的机器人”。

但人形机器人是一个新技术迭出的跨时代产品,如何将这些新技术更好融合在机器人系统中,真正以目标为导向实现匹配,帮助人形机器人跨越从实验室到物理现实任务的障碍,可能仍需要机器人研发工程师能够持续将机器人技术推到更极致的水平。

那么在探索阶段,我们是否也应该考虑,最先进的技术与产品有时候并不意味着最好用,尤其在面对陌生场景探索时,传统但成熟且稳定的技术,有时候在机器人工程学的大视角下,整合应用到极致,或许依然可以带来超乎想象的能效。