HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models
作者: Qiuxuan Feng, Jiale Yu, Jiaming Liu, Yueru Jia, Zhuangzhe Wu, Hao Chen, Zezhong Qian, Shuo Gu, Peng Jia, Siwei Ma, Shanghang Zhang
分类: cs.RO
发布日期: 2026-05-11
💡 一句话要点
提出HarmoWAM框架,通过自适应世界动作模型实现机器人通用性与操作精度的统一
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人控制 世界模型 零样本泛化 多模态学习 动作生成 物理动力学建模
📋 核心要点
- 现有WAMs在“通用迁移能力”与“精细交互精度”之间存在根本性权衡,难以同时满足复杂任务需求。
- 提出HarmoWAM框架,通过引入预测与反应双专家系统,并配合自适应门控机制,实现对物理动力学的深度利用。
- 实验表明,该方法在六项真实机器人任务中实现了显著的零样本泛化提升,性能大幅超越现有SOTA模型。
📝 摘要(中文)
世界动作模型(WAMs)通过建模物理动力学成为机器人控制的新范式。当前WAMs主要分为“先想象后执行”和“联合建模”两种路径。前者利用视频预测进行逆动力学推断,具备良好的泛化能力但缺乏交互精度;后者虽能生成细粒度、时间一致的动作,却受限于训练分布的探索空间。基于此,本文提出HarmoWAM,这是一种端到端的WAM,通过统一预测性与反应性控制,兼顾通用迁移与精确操作。该模型利用世界模型提供时空物理先验,条件化两个互补的动作专家:利用潜在动力学进行迭代生成的预测专家,以及直接从预测视觉演变推断动作的反应专家。通过过程自适应门控机制,模型能自动协调两者切换,从而在不同任务阶段实现最优控制。在六项真实机器人任务及三个未见测试环境中,HarmoWAM表现出卓越的零样本泛化能力,性能分别超越现有VLA模型和WAMs 33%与29%。
🔬 方法详解
问题定义:论文旨在解决机器人控制中“先想象后执行”范式缺乏精度与“联合建模”范式泛化受限的矛盾,即如何在保持长程任务通用性的同时,实现高精度的末端操作。
核心思路:通过引入互补的动作专家系统,利用世界模型提供的时空物理先验,将预测性控制(长程规划)与反应性控制(实时修正)有机结合,实现任务执行过程中的动态切换。
技术框架:HarmoWAM采用端到端架构,核心包含一个世界模型作为物理先验生成器,以及两个动作专家:预测专家(Predictive Expert)负责基于潜在动力学进行迭代动作生成,反应专家(Reactive Expert)负责基于视觉演变进行实时动作推断。两者通过过程自适应门控机制(Process-Adaptive Gating Mechanism)进行协调。
关键创新:核心创新在于“过程自适应门控机制”,它能够根据任务阶段自动决定何时依赖预测专家进行长程规划,何时切换至反应专家进行精细操作,从而打破了单一范式的性能瓶颈。
关键设计:模型利用世界模型作为条件输入,通过潜在空间中的动力学建模来驱动预测专家,同时利用视觉预测结果作为反应专家的输入,确保了动作生成在时间维度上的连贯性与空间维度上的精确性。
🖼️ 关键图片
📊 实验亮点
HarmoWAM在六项真实机器人任务及三个训练未见的测试环境中展现了极强的零样本泛化能力。实验结果显示,其性能显著优于现有的VLA(视觉-语言-动作)模型和传统WAMs,分别实现了33%和29%的性能提升,验证了双专家协同机制在复杂操作任务中的有效性。
🎯 应用场景
该研究适用于需要高精度与强泛化能力的机器人操作场景,如家庭服务机器人、工业柔性装配及仓储物流。其核心价值在于提升机器人在未见环境下的适应性,减少对大规模特定任务数据标注的依赖,推动机器人从实验室走向复杂多变的现实世界。
📄 摘要(原文)
World Action Models (WAMs) have emerged as a promising paradigm for robot control by modeling physical dynamics. Current WAMs generally follow two paradigms: the "Imagine-then-Execute" approach, which uses video prediction to infer actions via inverse dynamics, and the "Joint Modeling" approach, which jointly models actions and video representations. Based on systematic experiments, we observe a fundamental trade-off between these paradigms: the former explicitly leverages world models for generalizable transit but lacks interaction precision, whereas the latter enables fine-grained, temporally coherent action generation but is constrained by the exploration space of the training distribution. Motivated by these findings, we propose HarmoWAM, an end-to-end WAM that fully leverages a world model to unify predictive and reactive control, enabling both generalizable transit and precise manipulation. Specifically, the world model provides spatio-temporal physical priors that condition two complementary action experts: a predictive expert that leverages latent dynamics for iterative action generation, and a reactive expert that directly infers actions from predicted visual evolution. To enable adaptive coordination, a Process-Adaptive Gating Mechanism is proposed to automatically determine the timing and location of switching between them. This allows the world model to drive the reactive expert to expand the exploration space and the predictive expert to perform precise interactions across different stages of a task. For evaluation, we construct three training-unseen test environments across six real-world robotic tasks, covering variations in background, position, and object semantics. Notably, HarmoWAM achieves strong zero-shot generalization across these scenarios, significantly outperforming prior state-of-the-art VLA models and WAMs by margins of 33% and 29%, respectively.