History-Aware Visuomotor Policy Learning via Point Tracking

📄 arXiv: 2509.17141v1 📥 PDF

作者: Jingjing Chen, Hongjie Fang, Chenxi Wang, Shiquan Wang, Cewu Lu

分类: cs.RO

发布日期: 2025-09-21


💡 一句话要点

提出基于点追踪的历史感知视觉运动策略学习方法,解决重复状态和长时依赖问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉运动策略 历史感知 点追踪 机器人操作 强化学习

📋 核心要点

  1. 现有视觉运动策略在处理重复状态和长时依赖任务时面临挑战,因为它们通常依赖于马尔可夫假设。
  2. 该论文提出了一种基于点追踪的对象中心历史表示方法,将过去观察抽象为紧凑且结构化的形式,保留任务相关信息。
  3. 实验结果表明,该方法在各种操作任务中优于马尔可夫基线和先前的基于历史的方法,提升了任务性能和决策准确性。

📝 摘要(中文)

许多操作任务需要超越当前观察的记忆,但大多数视觉运动策略依赖于马尔可夫假设,因此难以应对重复状态或长时依赖。现有方法试图扩展观察范围,但对于不同的记忆需求仍然不足。为此,我们提出了一种基于点追踪的以对象为中心的历史表示方法,该方法将过去观察抽象为紧凑且结构化的形式,仅保留必要的任务相关信息。追踪点在对象级别进行编码和聚合,从而产生紧凑的历史表示,可以无缝集成到各种视觉运动策略中。我们的设计提供了完全的历史感知能力和高计算效率,从而提高了整体任务性能和决策准确性。通过对各种操作任务的广泛评估,我们表明我们的方法解决了记忆需求的多个方面——例如任务阶段识别、空间记忆和动作计数,以及更长期的需求,如连续和预加载的记忆——并且始终优于马尔可夫基线和先前的基于历史的方法。

🔬 方法详解

问题定义:现有视觉运动策略在处理需要长期记忆的操作任务时表现不佳。这些任务通常包含重复的状态或需要记住过去动作才能做出正确决策的长时依赖关系。现有的方法,例如扩展观察窗口,无法有效地捕捉和利用这些历史信息,导致性能下降。

核心思路:该论文的核心思路是将历史信息压缩成一个紧凑且结构化的表示,该表示以对象为中心,并通过点追踪来保留关键信息。通过追踪图像中的关键点,并将其与对象关联,该方法能够记住对象的状态和位置随时间的变化,从而克服了马尔可夫假设的局限性。

技术框架:该方法包含以下几个主要模块:1) 点追踪模块:使用现有的点追踪算法来追踪图像中的关键点。2) 对象关联模块:将追踪到的点与图像中的对象关联起来。3) 历史编码模块:将每个对象的点追踪历史编码成一个紧凑的向量表示。4) 策略网络:将历史编码向量与当前观察一起输入到策略网络中,以生成动作。

关键创新:该方法最重要的创新点在于其对象中心的历史表示。通过将历史信息与对象关联起来,该方法能够有效地过滤掉不相关的背景信息,并专注于任务相关的对象状态变化。此外,点追踪提供了一种紧凑且高效的方式来表示对象的状态随时间的变化。

关键设计:点追踪模块使用RAFT等成熟算法。对象关联模块可以使用Mask R-CNN等实例分割模型。历史编码模块可以使用LSTM或Transformer等序列模型来编码点追踪的历史轨迹。策略网络可以使用任何标准的强化学习算法,例如PPO或SAC。损失函数包括强化学习损失和可选的辅助损失,例如点追踪损失或对象分割损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文在多个操作任务上进行了广泛的评估,包括任务阶段识别、空间记忆和动作计数等。实验结果表明,该方法在所有任务上都优于马尔可夫基线和先前的基于历史的方法。例如,在需要记住物体位置的任务中,该方法比马尔可夫基线提高了15%的成功率。

🎯 应用场景

该研究成果可应用于各种需要长期记忆的机器人操作任务,例如装配、抓取、导航等。例如,机器人可以利用该方法记住零件的组装顺序,或者记住物体的位置以便后续抓取。此外,该方法还可以应用于虚拟现实和增强现实等领域,以提高虚拟环境的交互性和真实感。

📄 摘要(原文)

Many manipulation tasks require memory beyond the current observation, yet most visuomotor policies rely on the Markov assumption and thus struggle with repeated states or long-horizon dependencies. Existing methods attempt to extend observation horizons but remain insufficient for diverse memory requirements. To this end, we propose an object-centric history representation based on point tracking, which abstracts past observations into a compact and structured form that retains only essential task-relevant information. Tracked points are encoded and aggregated at the object level, yielding a compact history representation that can be seamlessly integrated into various visuomotor policies. Our design provides full history-awareness with high computational efficiency, leading to improved overall task performance and decision accuracy. Through extensive evaluations on diverse manipulation tasks, we show that our method addresses multiple facets of memory requirements - such as task stage identification, spatial memorization, and action counting, as well as longer-term demands like continuous and pre-loaded memory - and consistently outperforms both Markovian baselines and prior history-based approaches. Project website: http://tonyfang.net/history