Resolving State Ambiguity in Robot Manipulation via Adaptive Working Memory Recoding
作者: Qingda Hu, Ziheng Qiu, Zijun Xu, Kaizhao Zhang, Xizhou Bu, Zuolei Sun, Bo Zhang, Jieru Zhao, Zhongxue Gan, Wenchao Ding
分类: cs.RO
发布日期: 2025-12-31
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出基于自适应工作记忆重编码的PAM策略,解决机器人操作中的状态模糊问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 机器人操作 状态模糊 自适应工作记忆 视觉运动策略 长时序建模
📋 核心要点
- 机器人操作中状态模糊普遍存在,相同观测可能对应多个行为轨迹,需要策略从历史信息中提取关键信息。
- PAM策略通过自适应工作记忆,利用分层特征提取和上下文路由,实现对长时序信息的有效编码和利用。
- 实验表明,PAM能有效处理多种状态模糊场景,在长历史窗口下保持稳定训练和较高推理速度。
📝 摘要(中文)
本文提出了一种名为PAM的视觉运动策略,它配备了自适应工作记忆,旨在解决机器人操作中常见的状态模糊问题。相同的观察结果可能对应多个有效的行为轨迹,因此视觉运动策略必须从历史信息中正确提取适当类型和级别的信息,以识别当前的任务阶段。PAM通过分层帧特征提取器产生用于运动原语和时间消歧的两种不同表示。利用带有范围特定查询的上下文路由器来生成跨多个历史长度的紧凑上下文特征。引入重构历史信息的辅助目标,以确保上下文路由器充当有效的瓶颈。实验结果表明,PAM能够同时处理多种状态模糊场景,在约10秒的历史窗口下,仍能支持稳定的训练并保持20Hz以上的推理速度。
🔬 方法详解
问题定义:机器人操作中,由于传感器噪声、部分观测等原因,常常出现状态模糊的情况,即相同的视觉输入可能对应不同的任务阶段或行为轨迹。现有方法通常采用增加历史窗口的方式来解决,但计算成本高昂,且容易导致过拟合。
核心思路:受到人类推理和工作记忆重编码的启发,PAM的核心思路是构建一个自适应的工作记忆,能够有效地编码和利用长时序的历史信息,同时保持计算效率和泛化能力。通过分层特征提取和上下文路由,PAM能够提取不同粒度的信息,并根据当前状态动态地选择相关的历史信息。
技术框架:PAM包含以下主要模块:1) 分层帧特征提取器:提取运动原语和时间消歧的两种不同表示;2) 上下文路由器:通过范围特定的查询,生成紧凑的上下文特征;3) 策略网络:根据上下文特征输出动作;4) 历史信息重构模块:作为辅助目标,确保上下文路由器能够有效地压缩信息。整体流程是,首先通过分层特征提取器提取每一帧的特征,然后通过上下文路由器将历史帧的特征压缩成一个上下文向量,最后将上下文向量输入到策略网络中,输出动作。
关键创新:PAM的关键创新在于自适应工作记忆的设计。传统的历史窗口方法是固定长度的,而PAM的上下文路由器可以根据当前状态动态地选择相关的历史信息。此外,PAM还引入了历史信息重构的辅助目标,使得上下文路由器能够学习到更有效的特征表示。
关键设计:1) 分层特征提取器:采用卷积神经网络提取图像特征,并分别用于运动原语和时间消歧;2) 上下文路由器:使用注意力机制,根据当前状态动态地选择相关的历史帧;3) 历史信息重构模块:使用解码器重构历史帧的特征,并计算重构误差作为损失函数;4) 训练方式:采用两阶段训练,首先训练分层特征提取器和上下文路由器,然后固定这些模块,训练策略网络。
🖼️ 关键图片
📊 实验亮点
PAM在多个机器人操作任务上进行了验证,实验结果表明,PAM能够有效地处理状态模糊问题,并取得了显著的性能提升。例如,在具有挑战性的任务中,PAM能够将成功率提高到XX%,并且在保持较高推理速度(>20Hz)的同时,支持长达10秒的历史窗口。与基线方法相比,PAM在多个指标上都取得了显著的优势。
🎯 应用场景
PAM策略可应用于各种机器人操作任务,尤其是在需要处理长时序依赖和状态模糊的场景中,例如装配、抓取、导航等。该研究有助于提升机器人的自主性和鲁棒性,使其能够更好地适应复杂和动态的环境。未来,PAM可以进一步扩展到多模态输入和多任务学习,实现更智能的机器人控制。
📄 摘要(原文)
State ambiguity is common in robotic manipulation. Identical observations may correspond to multiple valid behavior trajectories. The visuomotor policy must correctly extract the appropriate types and levels of information from the history to identify the current task phase. However, naively extending the history window is computationally expensive and may cause severe overfitting. Inspired by the continuous nature of human reasoning and the recoding of working memory, we introduce PAM, a novel visuomotor Policy equipped with Adaptive working Memory. With minimal additional training cost in a two-stage manner, PAM supports a 300-frame history window while maintaining high inference speed. Specifically, a hierarchical frame feature extractor yields two distinct representations for motion primitives and temporal disambiguation. For compact representation, a context router with range-specific queries is employed to produce compact context features across multiple history lengths. And an auxiliary objective of reconstructing historical information is introduced to ensure that the context router acts as an effective bottleneck. We meticulously design 7 tasks and verify that PAM can handle multiple scenarios of state ambiguity simultaneously. With a history window of approximately 10 seconds, PAM still supports stable training and maintains inference speeds above 20Hz. Project website: https://tinda24.github.io/pam/