Causal Process Models: Reframing Dynamic Causal Graph Discovery as a Reinforcement Learning Problem

📄 arXiv: 2507.13920 📥 PDF

作者: Turan Orujlu, Christian Gumbsch, Martin V. Butz, Charley M Wu

分类: cs.LG

发布日期: 2026-04-07


💡 一句话要点

提出因果过程模型,将动态因果图发现重构为强化学习问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 因果图发现 强化学习 动态系统建模 多智能体系统 物理预测

📋 核心要点

  1. 现有神经因果模型假设静态因果图,忽略了物理交互中因果关系动态变化和稀疏性的特点。
  2. 论文提出因果过程模型(CPM),将动态因果图构建转化为多智能体强化学习问题,学习稀疏时变因果图。
  3. 实验表明,CPM在物理预测任务上优于密集图基线,尤其在长时程和多对象场景下性能提升显著。

📝 摘要(中文)

大多数因果关系的神经模型假设静态因果图,无法捕捉物理交互中因果关系随时间涌现和消解的动态和稀疏特性。我们引入了因果过程框架及其神经实现,即因果过程模型(CPMs),用于从视觉观察中学习稀疏的、时变的因果图。与保持密集连接的传统方法不同,我们的模型仅在对象主动交互时才显式地构建因果边,从而显著提高了解释性和计算效率。我们通过将世界建模的动态交互图构建转化为多智能体强化学习问题来实现这一点,其中专门的智能体按顺序决定每个时间步哪些对象在因果上是连接的。我们的关键创新是一种结构化表示,它沿着三个学习维度(可变性、因果相关性和控制相关性)分解对象和力向量,从而能够自动发现语义上有意义的编码。我们证明了 CPM 在物理预测任务上明显优于密集图基线,尤其是在更长的预测范围和不同的对象数量下。

🔬 方法详解

问题定义:论文旨在解决从视觉观测中学习动态因果图的问题。现有方法通常采用密集连接图,计算复杂度高,难以解释,并且无法有效捕捉因果关系的动态性和稀疏性。这些方法难以处理长时间序列和大量对象的场景,泛化能力受限。

核心思路:论文的核心思路是将动态因果图的构建过程建模为多智能体强化学习问题。每个智能体负责决定两个对象之间是否存在因果连接。通过强化学习,智能体学习在对象交互时才建立因果边,从而实现稀疏的、时变的因果图。这种方法能够提高计算效率,增强模型的可解释性,并更好地捕捉因果关系的动态特性。

技术框架:CPM的整体框架包括以下几个主要模块:1) 对象编码器:将视觉输入编码为对象的状态向量。2) 交互智能体:一组智能体,每个智能体负责决定两个对象之间是否存在因果连接。智能体基于对象的状态向量和环境信息做出决策。3) 动力学模型:基于学习到的因果图和对象状态,预测下一时刻的对象状态。4) 强化学习训练:使用强化学习算法训练交互智能体,目标是最小化预测误差。

关键创新:论文的关键创新在于将动态因果图发现问题转化为多智能体强化学习问题,并引入了一种结构化的表示方法,将对象和力向量分解为三个学习维度:可变性、因果相关性和控制相关性。这种分解能够自动发现语义上有意义的编码,并提高模型的泛化能力。

关键设计:论文使用Actor-Critic算法训练交互智能体。Actor网络输出对象之间是否存在因果连接的概率,Critic网络评估当前状态的价值。损失函数包括预测误差和正则化项,用于鼓励稀疏的因果图。对象和力向量的分解通过线性变换实现,三个维度的维度大小是超参数,需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CPM在物理预测任务上显著优于密集图基线。在长时程预测和多对象场景下,CPM的性能提升尤为明显。例如,在包含多个相互作用的物体的场景中,CPM的预测误差比基线模型降低了约20%。此外,CPM学习到的因果图具有更高的可解释性,能够清晰地展示对象之间的因果关系。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、物理引擎建模等领域。通过学习动态因果图,机器人可以更好地理解环境,预测物体行为,并做出更合理的决策。在自动驾驶领域,该模型可以帮助车辆理解交通场景中的因果关系,例如车辆之间的相互影响,从而提高驾驶安全性。此外,该模型还可以用于构建更逼真的物理引擎,模拟复杂物理系统的行为。

📄 摘要(原文)

Most neural models of causality assume static causal graphs, failing to capture the dynamic and sparse nature of physical interactions where causal relationships emerge and dissolve over time. We introduce the Causal Process Framework and its neural implementation, Causal Process Models (CPMs), for learning sparse, time-varying causal graphs from visual observations. Unlike traditional approaches that maintain dense connectivity, our model explicitly constructs causal edges only when objects actively interact, dramatically improving both interpretability and computational efficiency. We achieve this by casting dynamic interaction-graph construction for world modeling as a multi-agent reinforcement learning problem, where specialized agents sequentially decide which objects are causally connected at each timestep. Our key innovation is a structured representation that factorizes object and force vectors along three learned dimensions (mutability, causal relevance, and control relevance), enabling the automatic discovery of semantically meaningful encodings. We demonstrate that a CPM significantly outperforms dense graph baselines on physical prediction tasks, particularly for longer horizons and varying object counts.