AHA-WAM:Asynchronous Horizon-Adaptive World-Action Modeling with Observation-Guided Context Routing

📄 arXiv: 2606.09811v1 📥 PDF

作者: Jisong Cai, Long Ling, Shiwei Chu, Zhongshan Liu, Jiayue Kang, Zhixuan Liang, Wenjie Xu, Yinan Mao, Weinan Zhang, Xiaokang Yang, Ru Ying, Ran Zheng, Yao Mu

分类: cs.RO, cs.AI, cs.CV

发布日期: 2026-06-08

备注: Project page: https://serene-sivy.github.io/aha-wam/


💡 一句话要点

提出AHA-WAM以解决世界-动作模型的时间耦合问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界-动作模型 异步执行 地平线自适应 双扩散变换器 机器人操控 动态场景理解 实时控制

📋 核心要点

  1. 现有世界-动作模型将世界预测与动作执行绑定在相同时间分辨率,导致信息冗余和弱效用。
  2. AHA-WAM通过异步地平线自适应设计,利用双扩散变换器架构,重新组织世界与动作建模,提升了模型的效率和响应能力。
  3. 在RoboTwin和真实世界任务中,AHA-WAM实现了92.80%和78.3%的成功率,且控制频率达到24.17 Hz,相比Fast-WAM提升了4.59倍。

📝 摘要(中文)

世界-动作模型作为机器人操控的新兴范式,通过联合建模视觉场景动态和动作,为策略学习注入物理先验。然而,现有模型将世界预测和动作执行绑定在相同的时间分辨率上,导致世界分支需要建模冗余且信息量弱的短期帧变化。为此,本文提出了AHA-WAM,一个基于双扩散变换器架构的异步地平线自适应世界-动作模型,重新组织了世界-动作建模以适应时间不对称性。AHA-WAM将视频变换器实例化为低频世界规划器,维护过去观察的滚动键值记忆,并通过分层联合注意力查询上下文来执行高频短动作块。实验表明,AHA-WAM在RoboTwin和真实世界操控任务中实现了最先进的性能,且无需任何机器人数据预训练。

🔬 方法详解

问题定义:本文旨在解决现有世界-动作模型在时间耦合上的不足,导致模型在短期帧变化上信息冗余且效用低下。

核心思路:提出AHA-WAM,通过异步地平线自适应设计,分离世界预测与动作执行的时间节奏,充分利用视频分支在具身控制中的潜力。

技术框架:AHA-WAM采用双扩散变换器架构,分为低频世界规划器和高频动作执行器。低频世界规划器维护过去观察的滚动记忆,并提供可重用的上下文编码;高频动作执行器通过分层联合注意力查询上下文,执行短动作块。

关键创新:AHA-WAM的主要创新在于引入了异步执行机制和观察引导的视频上下文路由(OVCR),使得动作专家能够利用长时间世界上下文,同时对实时执行状态保持响应。

关键设计:模型采用地平线自适应偏移训练,优化了动作执行的响应性;同时,设计了分层联合注意力机制,以增强上下文信息的利用效率。整体架构确保了高效的实时控制与长时间场景演变的结合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AHA-WAM在RoboTwin上实现了92.80%的平均成功率,在四个真实世界任务中达到了78.3%的成功率,且以24.17 Hz的闭环控制频率,相比Fast-WAM实现了4.59倍的速度提升,展现了显著的性能优势。

🎯 应用场景

AHA-WAM在机器人操控领域具有广泛的应用潜力,尤其是在复杂环境下的自主导航和操作任务中。其高效的世界-动作建模能力能够提升机器人在动态场景中的适应性和决策能力,未来可应用于智能制造、服务机器人等多个领域。

📄 摘要(原文)

World-action models have emerged as a promising paradigm for robot manipulation, jointly modeling visual scene dynamics and actions to inject physical priors into policy learning. However, existing world-action models couple world prediction and action execution at the same temporal resolution, forcing the world branch to model near-term frame variations that are redundant and weakly informative. We posit that strictly binding world prediction and action execution to the same temporal rhythm may underutilize the potential of the video branch for embodied control. Therefore, we propose AHA-WAM, an Asynchronous Horizon-Adaptive World-Action Model built on a dual Diffusion Transformer (DiT) architecture that reorganizes world-action modeling around this temporal asymmetry. AHA-WAM instantiates the video DiT as a low-frequency world planner that maintains rolling key-value memory over past observations and exposes reusable layerwise latent context encoding long-horizon scene evolution, while a high-frequency action DiT executes short action chunks in closed loop by querying this context through layerwise joint attention. To support asynchronous execution, we introduce horizon-adaptive offset training and Observation-Guided Video-Context Routing (OVCR), which together let the action expert exploit long-horizon world context while remaining responsive to real-time execution state without rerunning the video DiT. Experiments on RoboTwin and real-world manipulation tasks show that AHA-WAM achieves state-of-the-art performance without any robot-data pretraining, attaining 92.80% average success on RoboTwin and 78.3% success across 4 real-world tasks, while reaching 24.17 Hz closed-loop control with a 4.59x speedup over Fast-WAM.