AGWM: Affordance-Grounded World Models for Environments with Compositional Prerequisites

📄 arXiv: 2605.06841v1 📥 PDF

作者: Qinshi Zhang, Weipeng Deng, Zhihan Jiang, Jiaming Qu, Qianren Li, Weitao Xu, Ray LC

分类: cs.AI, cs.LG

发布日期: 2026-05-07

备注: 16 pages, 3 figures, 4 tables. Appendix on pages 11-16 (main text is self-contained)


💡 一句话要点

提出AGWM:一种基于可供性基础的世界模型,用于解决具有组合先决条件的复杂环境建模问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 世界模型 可供性学习 因果推理 长程预测 机器人规划 有向无环图

📋 核心要点

  1. 现有世界模型忽略了动作的先决条件,将动作与结果的共现误判为因果关系,导致在动态环境下的多步预测中产生严重的误差累积。
  2. AGWM通过构建基于有向无环图(DAG)的抽象可供性结构,显式建模动作的先决条件依赖,从而实时追踪动作的动态可执行性。
  3. 实验证明,AGWM在游戏模拟环境中有效降低了多步预测误差,在面对未见过的环境配置时表现出更强的泛化能力,并增强了模型决策的可解释性。

📝 摘要(中文)

在基于模型(Model-based)的学习中,智能体通过预测轨迹来学习行为。传统世界模型通常学习一种平稳的转换函数,将状态和动作映射到下一状态。然而,当动作与结果在训练数据中频繁共现时,模型往往会将其内化为因果规则,而忽略了动作的先决条件。在交互式环境中,智能体的动作会重塑未来的可供性空间(Affordance Space),即动作的执行依赖于先决条件是否满足,或因先决条件被破坏而失效,这类事件被称为结构改变(SC)事件。传统模型在多步预测中因无法准确判断动作的可执行性,导致预测误差随时间步累积。本文提出了AGWM(Affordance-Grounded World Model),通过学习以先决条件依赖的有向无环图(DAG)表示的抽象可供性结构,显式追踪动作的动态可执行性。在游戏模拟环境中的实验表明,该方法显著降低了多步预测误差,提升了对新配置的泛化能力及模型的可解释性。

🔬 方法详解

问题定义:论文旨在解决交互式环境中“结构改变(SC)事件”带来的建模挑战。现有世界模型将状态转换视为平稳过程,无法识别动作执行的先决条件,导致在长程预测中因动作不可执行而产生预测漂移。

核心思路:引入“可供性(Affordance)”概念,将环境状态解耦为物理状态与动作的可执行性状态。通过显式建模动作的依赖关系,使模型能够根据当前状态动态判断动作是否合法。

技术框架:AGWM包含两个核心组件:一是状态转换模型,负责预测环境的物理演变;二是可供性推理模块,利用DAG结构表示动作间的先决条件依赖,并在每一步预测中更新动作的可执行性掩码。

关键创新:将先决条件依赖显式化为DAG结构,而非隐式地包含在神经网络的黑盒转换中。这种结构化表示使得模型能够处理环境中的逻辑约束,从而在多步预测中保持逻辑一致性。

关键设计:模型通过学习一个可供性矩阵来捕捉动作间的依赖关系,并结合基于注意力的机制动态更新状态。损失函数中引入了针对可执行性预测的监督信号,确保模型对SC事件的敏感度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验在多个游戏模拟环境中进行,结果显示AGWM在多步预测任务中显著优于基线模型,预测误差降低幅度明显。特别是在处理未见过的环境配置时,AGWM展现了卓越的零样本泛化能力。此外,通过可视化DAG结构,研究人员能够直观理解模型对动作先决条件的推理过程,显著提升了模型的可解释性。

🎯 应用场景

该研究适用于需要复杂逻辑推理与长程规划的交互式环境,如机器人操作任务(需满足物体抓取先决条件)、复杂策略游戏(需满足资源或科技树先决条件)以及自动化工作流编排。其核心价值在于提升智能体在动态、受限环境下的鲁棒性与决策可靠性。

📄 摘要(原文)

In model-based learning, the agent learns behaviors by simulating trajectories based on world model predictions. Standard world models typically learn a stationary transition function that maps states and actions to next states, when an action and an outcome frequently co-occur in training data, the model tends to internalize this correlation as a general causal rule while ignoring action preconditions. In interactive environments, however, agent actions can reshape the future affordance space. At each timestep, an action may becomes executable only after its prerequisites are met, or non-executable when they are destroyed. We term such events structure-changing events (SC events). As a result, a conventional world model often fails to determine whether a given action is executable in the current state, especially in multi-step predictions. Each imagined step is conditioned on an incorrect affordance state, and therefore the prediction error compounds over the rollout horizon. In this paper, we propose AGWM (Affordance-Grounded World Model), which learns an abstract affordance structure represented as a DAG of prerequisite dependencies to explicitly track the dynamic executability of actions. Experiments on game-based simulated environments demonstrate the effectiveness of our method by achieving lower multi-step prediction error, better generalization to novel configurations, and improved interpretability.