OA-WAM: Object-Addressable World Action Model for Robust Robot Manipulation

📄 arXiv: 2605.06481v1 📥 PDF

作者: Yushan Liu, Peibo Sun, Shoujie Li, Yifan Xie, Lingfeng Zhang, Xintao Chao, Shiyuan Dong, Fang Chen, Xiao-Ping Zhang, Wenbo Ding

分类: cs.RO

发布日期: 2026-05-07


💡 一句话要点

提出OA-WAM,通过对象可寻址的世界动作模型提升机器人操作的鲁棒性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 世界动作模型 对象寻址 视觉语言动作 场景理解

📋 核心要点

  1. 现有世界动作模型难以在复杂场景中准确定位和操作特定对象,尤其是在场景发生变化时。
  2. OA-WAM将场景分解为可寻址的对象槽,每个槽包含地址和内容向量,从而实现对特定对象的精准操作。
  3. 实验表明,OA-WAM在多个机器人操作基准测试中表现出色,尤其在场景扰动下,展现了强大的鲁棒性。

📝 摘要(中文)

世界动作模型(WAMs)通过联合预测场景演化和机器人动作来增强视觉-语言-动作策略。然而,现有方法通常将预测的世界表示为整体图像、视频tokens或全局潜在变量。当指令引用特定对象时,这些表示难以被动作解码器寻址,尤其是在对象身份与上下文纠缠的场景变化下。我们提出了OA-WAM,一种用于鲁棒机器人操作的对象可寻址世界动作模型。OA-WAM将每一帧分解为N+1个槽状态,包括一个机器人槽和N个对象槽。每个槽包含一个持久的地址向量和一个随时间变化的内容向量,并在一个块因果序列中与文本、图像、本体感受和过去动作tokens融合。世界头预测下一帧的槽状态,而流匹配动作头在同一前向传递中解码一个16步的连续动作块。通过仅使用地址的键来路由跨槽注意力,并在每个Transformer层重置地址切片来强制执行可寻址性,从而在不添加额外tokens的情况下,将要作用的对象与该对象当前的状态分离开来。OA-WAM在LIBERO(97.8%)和SimplerEnv(79.3%)上与强大的VLA和WAM基线相匹配,在最相关的LIBERO-Plus几何轴上达到了最先进的性能,并在七轴聚合上保持了竞争力。一个因果槽干预测试产生了0.87的交换绑定余弦值,而整体基线最多为0.09。这些结果表明,可寻址的对象状态为场景扰动下的鲁棒世界-动作建模提供了一个有效的接口。

🔬 方法详解

问题定义:现有基于世界动作模型(WAM)的机器人操作方法,通常使用全局图像或潜在变量来表示场景,这使得模型难以根据指令精确地定位和操作特定对象。尤其是在场景发生变化,对象身份与背景信息混淆时,性能会显著下降。因此,需要一种能够有效解耦对象身份和状态,并实现对象级别寻址的WAM。

核心思路:OA-WAM的核心思想是将场景分解为多个可寻址的对象槽,每个槽对应一个对象或机器人。每个槽维护一个持久的地址向量和一个随时间变化的内容向量。地址向量用于在不同槽之间进行区分,内容向量则表示槽的当前状态。通过这种方式,模型可以根据指令中的对象信息,直接寻址到相应的槽,并执行相应的动作。

技术框架:OA-WAM的整体架构包含以下几个主要模块:1)槽分解模块:将输入图像分解为N+1个槽,包括N个对象槽和一个机器人槽。2)槽状态更新模块:使用Transformer网络,根据文本指令、图像信息、本体感受和过去动作,更新每个槽的状态。3)世界头:预测下一帧的槽状态。4)动作头:解码连续的动作序列。整个流程是端到端可训练的。

关键创新:OA-WAM的关键创新在于引入了对象可寻址的概念,并设计了相应的槽结构和注意力机制。通过将场景分解为可寻址的对象槽,模型可以更加精准地定位和操作特定对象,从而提高了机器人操作的鲁棒性。此外,通过在Transformer层重置地址切片,强制分离了对象身份和状态信息。

关键设计:OA-WAM的关键设计包括:1)地址向量和内容向量的分离:地址向量保持不变,用于区分不同的对象槽,内容向量随时间变化,表示对象的状态。2)基于地址的注意力机制:在Transformer网络中,使用地址向量作为键,进行跨槽注意力计算,从而实现对象级别的寻址。3)流匹配动作头:使用流匹配技术,解码连续的动作序列,提高了动作预测的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OA-WAM在LIBERO和SimplerEnv等机器人操作基准测试中取得了优异的成绩,与强大的VLA和WAM基线相匹配,并在LIBERO-Plus几何轴上达到了最先进的性能。在因果槽干预测试中,OA-WAM的交换绑定余弦值为0.87,远高于整体基线的0.09,表明其具有更强的对象寻址能力和鲁棒性。

🎯 应用场景

OA-WAM具有广泛的应用前景,例如在复杂环境下的机器人操作、智能制造、家庭服务机器人等领域。它可以帮助机器人在动态变化的场景中,更加精准地完成任务,提高工作效率和安全性。未来,可以进一步探索OA-WAM在多机器人协作、人机交互等方面的应用。

📄 摘要(原文)

World Action Models (WAMs) enhance Vision-Language-Action policies by jointly predicting scene evolution and robot actions, but existing methods usually represent the predicted world as holistic images, video tokens, or global latents. These representations are difficult for an action decoder to address when an instruction refers to a particular object, especially under scene shifts where object identity is entangled with context. We propose OA-WAM, an Object-Addressable World Action Model for robust robot manipulation. OA-WAM decomposes each frame into N+1 slot states, with one robot slot and N object slots. Each slot contains a persistent address vector and a time-varying content vector, and is fused with text, image, proprioception, and past-action tokens in a block-causal sequence. A world head predicts next-frame slot states, while a flow-matching action head decodes a 16-step continuous action chunk in the same forward pass. Addressability is enforced by routing cross-slot attention through address-only keys and resetting the address slice at every transformer layer, separating which object to act on from what that object currently is without adding extra tokens. OA-WAM matches strong VLA and WAM baselines on LIBERO (97.8%) and SimplerEnv (79.3%), reaches state-of-the-art performance on the most relevant LIBERO-Plus geometric axes, and remains competitive on the seven-axis aggregate. A causal slot-intervention test yields a swap-binding cosine of 0.87, versus at most 0.09 for holistic baselines. These results suggest that addressable object states provide an effective interface for robust world-action modeling under scene perturbations.