VLA终于有了 “长期记忆”:斯坦福 MemER 框架破解分钟级长时序操纵难题!
发布时间:2025-10-29 09:16 浏览量:1
在现实世界中,人类制作三明治时会自然回忆起花生酱罐、刀具的位置,这种长期记忆能力是应对环境部分可观测性的关键。但当前主流机器人政策却普遍 “健忘”—— 要么因处理长序列高维视觉数据导致计算成本爆炸,要么因盲目截取历史信息陷入冗余或相关性缺失的困境。
近日斯坦福大学 Ajay Sridhar、Jennifer Pan 等人提出的 MemER(Memory for Robot Control via Experience Retrieval)框架,通过分层策略与经验检索机制,首次让机器人在需要分钟级记忆的真实场景任务中实现高效推理。
1►机器人 “健忘症” 的三大核心症结
现有机器人政策在长时序任务中面临的瓶颈,这是由多重技术叠加导致的矛盾叠加,导致机器人无法像人类一样高效利用历史信息。
首先是计算效率与记忆长度的冲突。直接处理连续数百帧图像会使训练成本激增,且部署时延迟严重超标,这使得传统端到端政策只能放弃长时序记忆,仅依赖当前或极短序列的观测数据。
其次是数据冗余与关键信息的脱节。长序列观测容易引入 “虚假相关性”,让政策过度依赖演示数据中的偶然特征(如特定光照下的物体阴影)。当实际部署环境与演示场景存在差异时,政策会因状态分布偏移(covariate shift)导致性能持续退化,且观测序列越长,这种退化越严重。
最后是通用模型与机器人场景的适配鸿沟。现有视觉语言模型(VLM)虽具备视频理解能力,但缺乏解读机器人特定感知线索的能力。例如无法识别 “夹爪未完全闭合” 这类与任务成败相关的细节,更无法将视频理解能力转化为长时序操纵任务中的记忆管理能力。
2►MemER 的核心创新:分层架构 + 智能记忆检索
MemER 摒弃了 “暴力扩展上下文长度” 的传统思路,转而让机器人学会 “主动筛选并记忆关键信息”。核心设计围绕 “分层政策” 与 “动态关键帧管理” 展开,保留了现有视觉语言 - 动作(VLA)模型的优势,同时针对性解决了长时序记忆的痛点。
分层政策:“决策脑” 与 “执行手” 各司其职
MemER 将机器人政策拆分为高层与低层两个协同模块,形成 “记忆决策 - 动作执行” 的闭环:
高层政策(记忆决策者) 基于 Qwen2.5-VL-7B-Instruct 微调而成,核心职责是 “管理记忆” 与 “分解任务”。它接收三部分输入:各相机的最近 N 帧图像(实验中 N=8,即 “近期上下文”)、原始任务指令(如 “寻找番茄酱”)、历史筛选的关键帧集合 Kₜ(最多 8 帧,来自整个任务周期)。
MemER 架构一览。高层策略处理任务指令、已选关键帧(若有)及基座与腕部相机近期图像,生成低层语言子任务与候选关键帧(若有);低层策略依据子任务、当前图像及机器人关节状态生成动作;候选关键帧经过滤器处理后,得到后续推理的已选关键帧。
输出则包含两部分:一是当前子任务指令(如 “查看右侧箱子”),二是从近期上下文筛选出的候选关键帧 Jₜ。该模块的关键优势在于利用了 Qwen2.5-VL-7B-Instruct 的预训练视频理解能力,通过微调,模型能自动识别哪些帧包含任务关键信息(如箱子内部物体、物体原始位置),无需额外设计特征提取器。实验中,仅需 50 条遥控演示数据与子任务标注,就能让模型适配机器人记忆需求。
低层政策(动作执行者) 基于 π₀.₅模型(Physical Intelligence 发布)微调,专注于 “高精度高频控制”。它接收当前图像、机器人本体感受数据(关节角度、夹爪状态)与高层输出的子任务指令,直接输出关节速度等动作信号,处理运动学控制、抓取精度等机器人特有挑战。由于低层政策仅需关注当前子任务,无需处理长序列数据,能以 2Hz 的频率输出动作,满足实时控制需求。
这种拆分让高层专注于长时序记忆推理,避免陷入高频控制的细节;低层专注于实时动作执行,无需负担记忆管理的计算成本,两者通过 “子任务指令” 衔接,既保证了记忆的有效性,又不牺牲控制响应速度。
3►关键帧管理:用聚类算法浓缩 “有效记忆”
高层政策筛选关键帧的核心是 1D 单链接聚类算法,该机制确保机器人能从数千帧的任务周期中,动态保留最有价值的视觉信息,避免记忆库无限膨胀。具体流程分为三步:
第一步是候选帧收集。高层政策在每个时间步都会从近期 8 帧中提名候选关键帧 Jₜ,系统收集所有时间步的候选帧,提取其时间索引并形成有序列表 G₀:ₜ。列表会保留重复索引 —— 例如某帧被多次提名,说明其包含的信息对任务至关重要。
第二步是聚类分组。系统将时间间隔不超过 d 帧(实验中 d=5)的索引归为同一聚类。例如索引 {1,3,3,4,10} 会被分为两个聚类:C₁={1,3,3,4}(间隔均≤5)、C₂={10}(与前一聚类间隔 6>5)。这种分组方式确保同一聚类的帧代表同一关键事件(如 “查看左侧箱子” 的整个过程)。
第三步是代表帧选择。对每个聚类,选取中位数索引对应的帧作为最终关键帧。例如聚类 C₁的中位数索引为 3,对应的帧即为该事件的 “记忆锚点”。这种方式既减少了冗余(每个事件仅保留 1 帧),又能最大程度保留关键信息 —— 中位数索引能平衡事件的开始与结束阶段,避免遗漏重要细节。
通过该机制,MemER 能将整个任务周期的数千帧图像浓缩为不超过 8 帧的关键帧集合,在降低计算成本的同时,确保了记忆内容与任务强相关。
4►训练与部署优化:小数据适配 + 模型融合
为降低实际应用门槛,MemER 在训练与部署层面做了两项关键优化:
小数据高效训练:不同于传统长时序任务需要海量标注数据,MemER 仅需两类数据就能完成微调:一是 50 条完整的长时序任务演示轨迹(每条包含图像、本体感受数据、子任务标注),二是 10-15 条干预演示(用于处理部署中的常见失败场景,如夹爪未抓稳物体)。这种小数据需求源于高层政策复用了 Qwen2.5-VL-7B-Instruct 的预训练视频理解能力,低层政策则复用了 π₀.₅在 DROID 数据集上的控制能力。
模型融合策略:高层政策微调后可能会丢失预训练模型的鲁棒性(如对异常帧的容忍度)。研究团队采用 “权重插值” 方案:将微调后的模型权重 θ_ft 与预训练权重 θ_pre 按 α=0.8 的比例融合(θ_final = 0.8×θ_pre + 0.2×θ_ft)。实验显示,该策略能在保持任务适配性的同时,提升模型对低层政策重试、冻结等异常情况的容忍度,三项任务的平均性能提升约 5%。
异步闭环部署:为平衡推理质量与响应速度,MemER 采用异步调度。高层政策以 1Hz 频率更新子任务与关键帧,低层政策以 2Hz 频率输出动作。系统将图像以 2Hz 采样存入队列,高层政策完成当前推理后,直接从队列读取最新数据生成下一个子任务。这种方式避免了低层政策等待高层推理的延迟,确保闭环控制的稳定性。
5►实验验证:三项真实任务检验记忆能力
为全面验证 MemER 的性能,研究团队在 Franka 机械臂上设计了三项需要不同记忆类型的真实操纵任务,所有任务均需分钟级记忆(数百至数千帧),且覆盖机器人实际应用中的典型场景。
在三个任务领域中,研究人员对复杂指令理解、中间子任务执行及关键帧预测能力进行评估。每种方法在每个任务下均进行 20 次试验,并据此报告性能数据。
任务设计:覆盖多维度记忆需求
物体搜索(Object Search):3-5 个物体(如番茄酱、红色方块)随机放置在 3 个不透明箱子中,机器人需依次寻找 3 个目标物体。任务核心是记忆 “已检查过的箱子内容”—— 例如若之前查看过左侧箱子无番茄酱,就无需重复检查,直接前往其他箱子。该任务测试机器人对 “空间位置记忆” 的能力。
计数取物(Counting Scoops):机器人需将指定数量的两种食材(花生、软糖豆)分别装入两个碗中(如 “3 勺花生入绿碗,2 勺软糖豆入蓝碗”)。任务难点在于两种食材的关键帧视觉差异极小(仅食材颜色不同),且需精确记忆每种食材的取勺次数,测试 “时序计数记忆” 能力。
除尘归位(Dust & Replace):机器人需先移除两层货架上的物体(如毛绒玩具),拿起除尘器依次清洁两层货架,最后将物体放回原位。任务中,除尘器会被放回模糊位置,机器人需同时记忆 “物体原始位置” 与 “已清洁的货架”,测试 “多类型信息并行记忆” 能力。
6►对比实验:全面超越基线,逼近人类水平
研究团队设置了四类基线方法,以验证 MemER 的优势:
•无历史(No History):高层政策仅使用当前帧,无任何历史信息,模拟现有主流机器人政策;
•短历史(Short History):高层政策使用最近 8 帧上下文,代表 “有限上下文” 方法;
•长历史(Long History):高层政策使用最近 32 帧上下文,代表 “暴力扩展上下文” 方法;
•人类高层(Human HL):由人类手动提供子任务指令,仅测试低层政策的执行能力,作为性能上限参考。
实验结果显示,MemER 在三项任务上的平均完成度达 90%,显著优于其他基线:
•在物体搜索任务中,MemER 的物体检索成功率为 59/60(20 次实验 ×3 个物体),最优路径使用率为 57/60,而长历史基线的对应指标仅为 47/60 和 41/60;
•在计数取物任务中,MemER 的取勺误差仅为 1 次(20 次实验平均),远低于长历史基线的 12 次、短历史基线的 26 次;
•在除尘归位任务中,MemER 的物体归位正确率与货架清洁率均超过 90%,而无历史基线的对应指标仅为 35% 左右。
值得注意的是,MemER 的性能已逼近人类高层政策(平均完成度 95%),两者的差距主要源于低层政策的执行误差(如偶发的抓取失败),而非记忆决策能力。
7►模态对比:视觉记忆优于文本记忆
为验证 “哪种模态更适合机器人记忆”,研究团队测试了两种文本记忆方案:
•短历史 + 文本:高层政策使用最近 8 帧图像 + 对应的子任务文本描述;
•MemER + 文本:在 MemER 的关键帧基础上,添加对应的子任务文本描述。
实验结果显示,纯视觉记忆的 MemER 表现最优,文本记忆的加入反而导致性能下降:
•在计数取物任务中,MemER + 文本的取勺误差从 1 次增至 13 次,原因是模型过度依赖文本中的 “计数信息”,忽略了视觉上的 “勺子是否装满” 细节;
•在物体搜索任务中,短历史 + 文本的最优路径使用率仅为 28/60,远低于 MemER 的 57/60,原因是文本无法精确描述 “箱子内物体的位置与状态”,导致机器人重复检查。
这一结果证明,在机器人操纵任务中,视觉信息比文本描述更能精准传递记忆所需的空间细节与状态信息。
8►与专有 VLM 对比:开源模型微调更适配
研究团队还将 MemER 的高层政策与 GPT-5、Gemini Robotics–ER 1.5 等专有 VLM 进行对比,以验证 “通用 VLM 是否能直接用于机器人记忆管理”。
实验发现,专有 VLM 存在两大致命问题:
•延迟超标:专有 VLM 的 API 调用延迟为 10-15 秒,远超闭环控制的 1 秒容忍极限,直接部署会导致任务完全失败;
•场景适配差:在离线实验中(使用预录轨迹,无实时延迟压力),GPT-5 的子任务预测准确率仅为 15%-43%,Gemini 的对应指标仅为 13%-23%,远低于 MemER 的 63%-87%。核心原因是专有 VLM 缺乏机器人场景适配,无法识别 “夹爪状态”“物体相对位置” 等关键感知线索,导致候选关键帧选择冗余、子任务指令与实际需求脱节。
结果显示,基于开源 VLM 进行针对性微调,比直接使用通用专有 VLM 更适合机器人长时序任务 —— 开源模型的可定制性,使其能更好地适配机器人特定的感知与决策需求。
9►结语与未来:
尽管 MemER 表现出色,但研究团队仍然指出了其目前的局限性。一是缺乏过期记忆删除机制,仅能添加关键帧,若任务延长至数小时会导致关键帧集合膨胀、计算成本上升;二是高层 1Hz、低层 2Hz 的调度频率,难以满足装配线分拣等高速操纵任务需求;三是仅依赖视觉信息,未整合触觉、听觉等其他感官数据,记忆维度不够全面;四是实验仅在单机械臂上完成,尚未适配移动操纵机器人或多机器人协作场景。对应这些局限,未来需让高层政策学会判断记忆时效性以删除无用信息,通过优化模型缓存、改进 tokenization 算法提升控制频率,将多模态数据融入关键帧筛选以丰富记忆维度,同时探索空间映射与情景记忆结合的方案,适配更复杂的多机器人应用场景。
MemER 通过 “分层架构 + 智能关键帧管理” 的设计,巧妙解决了长时序机器人任务中的记忆难题。未来随着记忆机制的不断完善,机器人将逐步摆脱 “健忘” 的局限,向 “能自主规划、能长期适应环境” 的通用智能体迈进。
论文地址:
开源地址: