VLA终于有了 “长期记忆”：斯坦福 MemER 框架破解分钟级长时序操纵难题！

发布时间：2025-10-29 09:16 浏览量：1

在现实世界中，人类制作三明治时会自然回忆起花生酱罐、刀具的位置，这种长期记忆能力是应对环境部分可观测性的关键。但当前主流机器人政策却普遍 “健忘”—— 要么因处理长序列高维视觉数据导致计算成本爆炸，要么因盲目截取历史信息陷入冗余或相关性缺失的困境。

近日斯坦福大学 Ajay Sridhar、Jennifer Pan 等人提出的 MemER（Memory for Robot Control via Experience Retrieval）框架，通过分层策略与经验检索机制，首次让机器人在需要分钟级记忆的真实场景任务中实现高效推理。

1►机器人 “健忘症” 的三大核心症结

现有机器人政策在长时序任务中面临的瓶颈，这是由多重技术叠加导致的矛盾叠加，导致机器人无法像人类一样高效利用历史信息。

首先是计算效率与记忆长度的冲突。直接处理连续数百帧图像会使训练成本激增，且部署时延迟严重超标，这使得传统端到端政策只能放弃长时序记忆，仅依赖当前或极短序列的观测数据。

其次是数据冗余与关键信息的脱节。长序列观测容易引入 “虚假相关性”，让政策过度依赖演示数据中的偶然特征（如特定光照下的物体阴影）。当实际部署环境与演示场景存在差异时，政策会因状态分布偏移（covariate shift）导致性能持续退化，且观测序列越长，这种退化越严重。

最后是通用模型与机器人场景的适配鸿沟。现有视觉语言模型（VLM）虽具备视频理解能力，但缺乏解读机器人特定感知线索的能力。例如无法识别 “夹爪未完全闭合” 这类与任务成败相关的细节，更无法将视频理解能力转化为长时序操纵任务中的记忆管理能力。

2►MemER 的核心创新：分层架构 + 智能记忆检索

MemER 摒弃了 “暴力扩展上下文长度” 的传统思路，转而让机器人学会 “主动筛选并记忆关键信息”。核心设计围绕 “分层政策” 与 “动态关键帧管理” 展开，保留了现有视觉语言 - 动作（VLA）模型的优势，同时针对性解决了长时序记忆的痛点。

MemER框架概述

分层政策：“决策脑” 与 “执行手” 各司其职

MemER 将机器人政策拆分为高层与低层两个协同模块，形成 “记忆决策 - 动作执行” 的闭环：

高层政策（记忆决策者）基于 Qwen2.5-VL-7B-Instruct 微调而成，核心职责是 “管理记忆” 与 “分解任务”。它接收三部分输入：各相机的最近 N 帧图像（实验中 N=8，即 “近期上下文”）、原始任务指令（如 “寻找番茄酱”）、历史筛选的关键帧集合 Kₜ（最多 8 帧，来自整个任务周期）。

MemER 架构一览。高层策略处理任务指令、已选关键帧（若有）及基座与腕部相机近期图像，生成低层语言子任务与候选关键帧（若有）；低层策略依据子任务、当前图像及机器人关节状态生成动作；候选关键帧经过滤器处理后，得到后续推理的已选关键帧。

输出则包含两部分：一是当前子任务指令（如 “查看右侧箱子”），二是从近期上下文筛选出的候选关键帧 Jₜ。该模块的关键优势在于利用了 Qwen2.5-VL-7B-Instruct 的预训练视频理解能力，通过微调，模型能自动识别哪些帧包含任务关键信息（如箱子内部物体、物体原始位置），无需额外设计特征提取器。实验中，仅需 50 条遥控演示数据与子任务标注，就能让模型适配机器人记忆需求。

低层政策（动作执行者）基于 π₀.₅模型（Physical Intelligence 发布）微调，专注于 “高精度高频控制”。它接收当前图像、机器人本体感受数据（关节角度、夹爪状态）与高层输出的子任务指令，直接输出关节速度等动作信号，处理运动学控制、抓取精度等机器人特有挑战。由于低层政策仅需关注当前子任务，无需处理长序列数据，能以 2Hz 的频率输出动作，满足实时控制需求。

这种拆分让高层专注于长时序记忆推理，避免陷入高频控制的细节；低层专注于实时动作执行，无需负担记忆管理的计算成本，两者通过 “子任务指令” 衔接，既保证了记忆的有效性，又不牺牲控制响应速度。

3►关键帧管理：用聚类算法浓缩 “有效记忆”

高层政策筛选关键帧的核心是 1D 单链接聚类算法，该机制确保机器人能从数千帧的任务周期中，动态保留最有价值的视觉信息，避免记忆库无限膨胀。具体流程分为三步：

候选帧的一维单链接聚类

第一步是候选帧收集。高层政策在每个时间步都会从近期 8 帧中提名候选关键帧 Jₜ，系统收集所有时间步的候选帧，提取其时间索引并形成有序列表 G₀:ₜ。列表会保留重复索引 —— 例如某帧被多次提名，说明其包含的信息对任务至关重要。

第二步是聚类分组。系统将时间间隔不超过 d 帧（实验中 d=5）的索引归为同一聚类。例如索引 {1,3,3,4,10} 会被分为两个聚类：C₁={1,3,3,4}（间隔均≤5）、C₂={10}（与前一聚类间隔 6>5）。这种分组方式确保同一聚类的帧代表同一关键事件（如 “查看左侧箱子” 的整个过程）。

第三步是代表帧选择。对每个聚类，选取中位数索引对应的帧作为最终关键帧。例如聚类 C₁的中位数索引为 3，对应的帧即为该事件的 “记忆锚点”。这种方式既减少了冗余（每个事件仅保留 1 帧），又能最大程度保留关键信息 —— 中位数索引能平衡事件的开始与结束阶段，避免遗漏重要细节。

通过该机制，MemER 能将整个任务周期的数千帧图像浓缩为不超过 8 帧的关键帧集合，在降低计算成本的同时，确保了记忆内容与任务强相关。

4►训练与部署优化：小数据适配 + 模型融合

为降低实际应用门槛，MemER 在训练与部署层面做了两项关键优化：

小数据高效训练：不同于传统长时序任务需要海量标注数据，MemER 仅需两类数据就能完成微调：一是 50 条完整的长时序任务演示轨迹（每条包含图像、本体感受数据、子任务标注），二是 10-15 条干预演示（用于处理部署中的常见失败场景，如夹爪未抓稳物体）。这种小数据需求源于高层政策复用了 Qwen2.5-VL-7B-Instruct 的预训练视频理解能力，低层政策则复用了 π₀.₅在 DROID 数据集上的控制能力。

模型融合策略：高层政策微调后可能会丢失预训练模型的鲁棒性（如对异常帧的容忍度）。研究团队采用 “权重插值” 方案：将微调后的模型权重 θ_ft 与预训练权重 θ_pre 按 α=0.8 的比例融合（θ_final = 0.8×θ_pre + 0.2×θ_ft）。实验显示，该策略能在保持任务适配性的同时，提升模型对低层政策重试、冻结等异常情况的容忍度，三项任务的平均性能提升约 5%。

异步闭环部署：为平衡推理质量与响应速度，MemER 采用异步调度。高层政策以 1Hz 频率更新子任务与关键帧，低层政策以 2Hz 频率输出动作。系统将图像以 2Hz 采样存入队列，高层政策完成当前推理后，直接从队列读取最新数据生成下一个子任务。这种方式避免了低层政策等待高层推理的延迟，确保闭环控制的稳定性。

5►实验验证：三项真实任务检验记忆能力

为全面验证 MemER 的性能，研究团队在 Franka 机械臂上设计了三项需要不同记忆类型的真实操纵任务，所有任务均需分钟级记忆（数百至数千帧），且覆盖机器人实际应用中的典型场景。

在三个任务领域中，研究人员对复杂指令理解、中间子任务执行及关键帧预测能力进行评估。每种方法在每个任务下均进行 20 次试验，并据此报告性能数据。

任务设计：覆盖多维度记忆需求

物体搜索（Object Search）：3-5 个物体（如番茄酱、红色方块）随机放置在 3 个不透明箱子中，机器人需依次寻找 3 个目标物体。任务核心是记忆 “已检查过的箱子内容”—— 例如若之前查看过左侧箱子无番茄酱，就无需重复检查，直接前往其他箱子。该任务测试机器人对 “空间位置记忆” 的能力。

计数取物（Counting Scoops）：机器人需将指定数量的两种食材（花生、软糖豆）分别装入两个碗中（如 “3 勺花生入绿碗，2 勺软糖豆入蓝碗”）。任务难点在于两种食材的关键帧视觉差异极小（仅食材颜色不同），且需精确记忆每种食材的取勺次数，测试 “时序计数记忆” 能力。

除尘归位（Dust & Replace）：机器人需先移除两层货架上的物体（如毛绒玩具），拿起除尘器依次清洁两层货架，最后将物体放回原位。任务中，除尘器会被放回模糊位置，机器人需同时记忆 “物体原始位置” 与 “已清洁的货架”，测试 “多类型信息并行记忆” 能力。

6►对比实验：全面超越基线，逼近人类水平

研究团队设置了四类基线方法，以验证 MemER 的优势：

•无历史（No History）：高层政策仅使用当前帧，无任何历史信息，模拟现有主流机器人政策；

•短历史（Short History）：高层政策使用最近 8 帧上下文，代表 “有限上下文” 方法；

•长历史（Long History）：高层政策使用最近 32 帧上下文，代表 “暴力扩展上下文” 方法；

•人类高层（Human HL）：由人类手动提供子任务指令，仅测试低层政策的执行能力，作为性能上限参考。

实验结果显示，MemER 在三项任务上的平均完成度达 90%，显著优于其他基线：

•在物体搜索任务中，MemER 的物体检索成功率为 59/60（20 次实验 ×3 个物体），最优路径使用率为 57/60，而长历史基线的对应指标仅为 47/60 和 41/60；

•在计数取物任务中，MemER 的取勺误差仅为 1 次（20 次实验平均），远低于长历史基线的 12 次、短历史基线的 26 次；

•在除尘归位任务中，MemER 的物体归位正确率与货架清洁率均超过 90%，而无历史基线的对应指标仅为 35% 左右。

值得注意的是，MemER 的性能已逼近人类高层政策（平均完成度 95%），两者的差距主要源于低层政策的执行误差（如偶发的抓取失败），而非记忆决策能力。

7►模态对比：视觉记忆优于文本记忆

为验证 “哪种模态更适合机器人记忆”，研究团队测试了两种文本记忆方案：

•短历史 + 文本：高层政策使用最近 8 帧图像 + 对应的子任务文本描述；

•MemER + 文本：在 MemER 的关键帧基础上，添加对应的子任务文本描述。

实验结果显示，纯视觉记忆的 MemER 表现最优，文本记忆的加入反而导致性能下降：

（左）模态结果；（右）模型融合结果

•在计数取物任务中，MemER + 文本的取勺误差从 1 次增至 13 次，原因是模型过度依赖文本中的 “计数信息”，忽略了视觉上的 “勺子是否装满” 细节；

•在物体搜索任务中，短历史 + 文本的最优路径使用率仅为 28/60，远低于 MemER 的 57/60，原因是文本无法精确描述 “箱子内物体的位置与状态”，导致机器人重复检查。

这一结果证明，在机器人操纵任务中，视觉信息比文本描述更能精准传递记忆所需的空间细节与状态信息。

8►与专有 VLM 对比：开源模型微调更适配

研究团队还将 MemER 的高层政策与 GPT-5、Gemini Robotics–ER 1.5 等专有 VLM 进行对比，以验证 “通用 VLM 是否能直接用于机器人记忆管理”。

实验发现，专有 VLM 存在两大致命问题：

•延迟超标：专有 VLM 的 API 调用延迟为 10-15 秒，远超闭环控制的 1 秒容忍极限，直接部署会导致任务完全失败；

•场景适配差：在离线实验中（使用预录轨迹，无实时延迟压力），GPT-5 的子任务预测准确率仅为 15%-43%，Gemini 的对应指标仅为 13%-23%，远低于 MemER 的 63%-87%。核心原因是专有 VLM 缺乏机器人场景适配，无法识别 “夹爪状态”“物体相对位置” 等关键感知线索，导致候选关键帧选择冗余、子任务指令与实际需求脱节。

结果显示，基于开源 VLM 进行针对性微调，比直接使用通用专有 VLM 更适合机器人长时序任务 —— 开源模型的可定制性，使其能更好地适配机器人特定的感知与决策需求。

9►结语与未来：

尽管 MemER 表现出色，但研究团队仍然指出了其目前的局限性。一是缺乏过期记忆删除机制，仅能添加关键帧，若任务延长至数小时会导致关键帧集合膨胀、计算成本上升；二是高层 1Hz、低层 2Hz 的调度频率，难以满足装配线分拣等高速操纵任务需求；三是仅依赖视觉信息，未整合触觉、听觉等其他感官数据，记忆维度不够全面；四是实验仅在单机械臂上完成，尚未适配移动操纵机器人或多机器人协作场景。对应这些局限，未来需让高层政策学会判断记忆时效性以删除无用信息，通过优化模型缓存、改进 tokenization 算法提升控制频率，将多模态数据融入关键帧筛选以丰富记忆维度，同时探索空间映射与情景记忆结合的方案，适配更复杂的多机器人应用场景。

MemER 通过 “分层架构 + 智能关键帧管理” 的设计，巧妙解决了长时序机器人任务中的记忆难题。未来随着记忆机制的不断完善，机器人将逐步摆脱 “健忘” 的局限，向 “能自主规划、能长期适应环境” 的通用智能体迈进。

论文地址：

开源地址：

标签：斯坦福时序长期记忆 memer memer框架

VLA终于有了 “长期记忆”：斯坦福 MemER 框架破解分钟级长时序操纵难题！

相似文章

资讯分类

热门资讯

热门产品