AIM: Intent-Aware Unified world action Modeling with Spatial Value Maps

📄 arXiv: 2604.11135v1 📥 PDF

作者: Liaoyuan Fan, Zetian Xu, Chen Cao, Wenyao Zhang, Mingqi Yuan, Jiayu Chen

分类: cs.RO, cs.LG

发布日期: 2026-04-13


💡 一句话要点

提出AIM,利用空间价值图建模交互意图,提升机器人操作任务性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 世界模型 空间价值图 意图建模 强化学习

📋 核心要点

  1. 现有统一世界动作模型难以解码可靠动作,尤其是在缺乏大量机器人特定训练数据时。
  2. AIM通过预测空间价值图来显式建模交互意图,从而实现对未来动态的控制导向抽象。
  3. 在RoboTwin 2.0上,AIM平均成功率达94.0%,显著优于现有方法,尤其在长时程任务中。

📝 摘要(中文)

本文提出了一种意图感知的统一世界动作模型AIM,旨在通过显式的空间接口弥合视频生成模型和机器人控制之间的差距。与直接从未来视觉表征解码动作不同,AIM预测一个对齐的空间价值图,该图编码了任务相关的交互结构,从而实现了面向控制的未来动态抽象。AIM基于预训练的视频生成模型,在一个共享的混合Transformer架构中联合建模未来观测和价值图。它采用意图因果注意力,将未来的信息专门通过价值表征传递到动作分支。此外,本文还提出了一种自蒸馏强化学习阶段,该阶段冻结视频和价值分支,仅使用从投影价值图响应导出的密集奖励以及稀疏的任务级信号来优化动作头。为了支持训练和评估,构建了一个包含3万个操作轨迹的模拟数据集,其中包含同步的多视角观测、动作和价值图注释。在RoboTwin 2.0基准测试上的实验表明,AIM实现了94.0%的平均成功率,显著优于先前的统一世界动作基线。值得注意的是,在长时程和接触敏感的操作任务中,改进更为明显,证明了显式空间意图建模作为视觉世界建模和机器人控制之间桥梁的有效性。

🔬 方法详解

问题定义:现有统一世界动作模型在机器人控制中表现不佳,尤其是在需要长时程规划和精确接触的任务中。它们难以从未来视觉表征中直接解码出可靠的动作,缺乏对交互意图和空间位置的显式建模,导致泛化能力不足。

核心思路:本文的核心思路是通过引入空间价值图(Spatial Value Map)来显式地建模交互意图。空间价值图能够编码任务相关的交互结构,提供一个面向控制的未来动态抽象,从而弥合视频生成模型和机器人控制之间的差距。

技术框架:AIM模型建立在预训练的视频生成模型之上,采用混合Transformer架构,联合建模未来观测和空间价值图。整体流程包括:1) 使用视频生成模型预测未来视觉表征;2) 通过意图因果注意力机制,将未来信息传递到价值图分支;3) 预测空间价值图,该图编码了任务相关的交互结构;4) 从价值图解码出动作。此外,还使用自蒸馏强化学习方法,仅优化动作头,进一步提升性能。

关键创新:最重要的创新点在于引入了空间价值图作为中间表征,显式地建模了交互意图和空间位置。与直接从视觉表征解码动作的方法不同,AIM通过价值图提供了一个更抽象、更易于控制的表征,从而提高了模型的泛化能力和控制精度。意图因果注意力机制保证了动作分支的信息来源于价值图,避免了直接依赖视觉信息。

关键设计:AIM使用混合Transformer架构,其中视频和价值图分支共享部分参数。意图因果注意力机制通过mask机制实现,确保动作分支只能访问价值图的信息。自蒸馏强化学习阶段使用密集奖励,该奖励基于预测的价值图与真实价值图之间的相似度。数据集包含3万个操作轨迹,包含多视角观测、动作和价值图注释。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在RoboTwin 2.0基准测试中,AIM取得了显著的性能提升,平均成功率达到94.0%,显著优于先前的统一世界动作基线。尤其是在长时程和接触敏感的操作任务中,AIM的改进更为明显,证明了显式空间意图建模的有效性。例如,在需要精确放置物体的任务中,AIM的成功率比现有方法提高了10%以上。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,例如装配、抓取、放置等。通过显式建模交互意图,可以提高机器人在复杂环境中的操作能力和泛化性。该方法还可扩展到其他领域,例如自动驾驶和人机交互,用于预测人类意图和规划行为。

📄 摘要(原文)

Pretrained video generation models provide strong priors for robot control, but existing unified world action models still struggle to decode reliable actions without substantial robot-specific training. We attribute this limitation to a structural mismatch: while video models capture how scenes evolve, action generation requires explicit reasoning about where to interact and the underlying manipulation intent. We introduce AIM, an intent-aware unified world action model that bridges this gap via an explicit spatial interface. Instead of decoding actions directly from future visual representations, AIM predicts an aligned spatial value map that encodes task-relevant interaction structure, enabling a control-oriented abstraction of future dynamics. Built on a pretrained video generation model, AIM jointly models future observations and value maps within a shared mixture-of-transformers architecture. It employs intent-causal attention to route future information to the action branch exclusively through the value representation. We further propose a self-distillation reinforcement learning stage that freezes the video and value branches and optimizes only the action head using dense rewards derived from projected value-map responses together with sparse task-level signals. To support training and evaluation, we construct a simulation dataset of 30K manipulation trajectories with synchronized multi-view observations, actions, and value-map annotations. Experiments on RoboTwin 2.0 benchmark show that AIM achieves a 94.0% average success rate, significantly outperforming prior unified world action baselines. Notably, the improvement is more pronounced in long-horizon and contact-sensitive manipulation tasks, demonstrating the effectiveness of explicit spatial-intent modeling as a bridge between visual world modeling and robot control.