STRIPS-WM: Learning Grounded Propositional STRIPS-style World Models from Images

📄 arXiv: 2606.06832v1 📥 PDF

作者: Abhiroop Ajith, Constantinos Chamzas

分类: cs.RO

发布日期: 2026-06-05


💡 一句话要点

提出STRIPS-WM以解决机器人视觉任务规划问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉任务规划 符号操作 图像过渡 机器人学习 长时间操作 潜在谓词 世界模型

📋 核心要点

  1. 现有方法在从高维图像中提取与动作相关的事实时面临挑战,难以有效地进行长时间视觉操作规划。
  2. STRIPS-WM框架通过学习图像过渡生成STRIPS风格的世界模型,能够直接从视觉信息中提取符号操作。
  3. 实验结果显示,STRIPS-WM在视觉重排任务中相比于基线方法显著提高了成功率,展示了其有效性。

📝 摘要(中文)

在长时间视觉操作中,机器人需要从高维图像中提取与动作相关的事实,以制定成功的计划。传统的任务规划方法依赖于符号操作符,但从原始视觉经验中获取这些表示仍然具有挑战性。本文提出STRIPS-WM框架,通过学习图像过渡直接生成STRIPS风格的世界模型。该方法首先从图像中诱导出有限的抽象过渡图,然后为每个动作标签学习潜在的二元谓词和一个具体的命题操作符。最终,学习到的谓词被蒸馏到视觉编码器中,使得机器人能够从新的起始和目标图像中进行经典规划。实验结果表明,STRIPS-WM在视觉重排任务中显著提高了图像到计划的成功率。

🔬 方法详解

问题定义:本文旨在解决机器人在仅依赖图像过渡进行视觉任务规划时,如何从高维图像中提取与动作相关的有效信息的问题。现有方法在获取符号表示方面存在困难,限制了机器人在复杂环境中的操作能力。

核心思路:STRIPS-WM框架的核心思路是通过学习图像过渡,直接生成与动作相关的符号操作,从而简化规划过程。该设计旨在去除不相关的视觉细节,保留与动作适用性和效果相关的信息。

技术框架:STRIPS-WM的整体架构包括几个主要模块:首先,从图像中诱导出有限的抽象过渡图;其次,为每个动作标签学习潜在的二元谓词和一个具体的命题操作符;最后,将学习到的谓词蒸馏到视觉编码器中,以支持从新图像进行经典规划。

关键创新:STRIPS-WM的主要创新在于能够从视觉过渡中自动学习符号操作模型,并且通过稀疏的前提条件和增删效果来构建符号表示。这一方法与传统的符号规划方法相比,显著降低了对手工特征提取的依赖。

关键设计:在设计中,采用了特定的损失函数来优化学习过程,并通过图神经网络等结构来实现潜在谓词的学习。此外,模型的参数设置经过精心调整,以确保在不同视觉任务中的适应性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,STRIPS-WM在视觉重排任务中实现了显著的性能提升,相比于视觉回放、潜在图搜索和潜在符号基线,成功率有了显著提高,展示了该方法在实际应用中的有效性和优势。

🎯 应用场景

STRIPS-WM框架在机器人视觉任务规划中具有广泛的应用潜力,尤其是在需要长时间操作的场景,如家庭服务机器人、工业自动化和智能物流等领域。通过有效提取与动作相关的信息,该方法能够提升机器人在复杂环境中的自主决策能力,未来可能推动更智能的机器人系统的发展。

📄 摘要(原文)

Robots performing long-horizon visual manipulation observe high-dimensional images, but successful plans depend on action-relevant facts: what can be done now and what changes afterward. A useful planning representation should discard irrelevant visual details while preserving action applicability and effects. Classical task planners exploit this structure through symbolic operators with preconditions and effects, but obtaining such representations from raw visual experience remains challenging. We study a visual task-planning setting in which a robot receives only image transitions: the current image, executed high-level action, and the resulting image. At test time, given a start image and a goal image, the robot must produce a sequence of high-level actions that reaches the goal. To address this problem, we introduce STRIPS-WM, a framework for learning image-grounded STRIPS-style world models directly from visual transitions. STRIPS-WM first induces a finite abstract transition graph from images, then learns latent binary predicates and one grounded propositional operator per action label. The learned operators form a symbolic action model with sparse preconditions and add/delete effects. Finally, the learned predicates are distilled into a visual encoder, enabling classical planning directly from novel start and goal images. Experiments on visual rearrangement tasks show that STRIPS-WM improves image-to-plan success over the tested visual rollout, latent graph-search and latent-symbolic baselines.