Deterministic Event-Graph Substrates as World Models for Counterfactual Reasoning

📄 arXiv: 2605.15967v1 📥 PDF

作者: Fabio Rovai

分类: cs.AI, cs.CV, cs.LO

发布日期: 2026-05-15

备注: 10 pages, 3 figures, 2 tables


💡 一句话要点

提出基于确定性事件图基质的世界模型,用于反事实推理。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 反事实推理 事件图 RDF三元组 知识图谱

📋 核心要点

  1. 现有世界模型在处理复杂场景的反事实推理时,缺乏可解释性和精确性,难以进行结构化干预。
  2. 提出事件图基质,通过维护RDF三元组的仅追加日志来表示世界状态,并利用日志分叉实现反事实查询。
  3. 实验表明,该方法在CLEVRER和twin-EventLog基准上,优于现有符号推理和参数化模型,尤其在可解释性方面。

📝 摘要(中文)

本文研究了事件图基质:一类世界模型,它将智能体状态表示为类型化的RDF三元组的仅追加日志,并通过在结构化干预词汇下分叉日志来回答反事实查询。基质在三元组级别可检查,支持精确的反事实,并在没有学习组件的情况下跨领域迁移。本文形式化了该类,证明了解释性查询和反事实查询之间的对偶性,将两者都简化为相同的因果祖先遍历,并在完整的CLEVRER验证规模(n=75,618)上评估了一个基于领域无关基质运行时的1,400行CLEVRER-DSL解释器。该基质在所有四个按问题类别上超过了NS-DR符号预言机(分别高出9.89、20.26、17.65和0.80个百分点),并且在描述性和解释性方面超过了参数化的ALOE基线,但在预测性和反事实性方面落后。本文还介绍了twin-EventLog,这是一个包含500个规范的Park-canonical Smallville反事实基准,在该基准上,该基质以18.80分的联合准确率超过了具有完整上下文的Llama-3.1-8B。

🔬 方法详解

问题定义:论文旨在解决现有世界模型在反事实推理中存在的不足,特别是缺乏可解释性、难以进行精确干预以及泛化能力有限的问题。现有方法,如基于神经网络的模型,通常难以解释其推理过程,并且在处理复杂场景时容易出错。符号推理方法虽然具有较好的可解释性,但在处理大规模数据时效率较低。

核心思路:论文的核心思路是利用事件图基质来表示世界状态,并利用该基质进行反事实推理。事件图基质通过维护RDF三元组的仅追加日志来记录世界状态的变化,每个三元组表示一个事件。通过对日志进行分叉,可以模拟不同的干预,从而实现反事实推理。这种方法具有可解释性强、精确度高和泛化能力强的优点。

技术框架:整体框架包括以下几个主要模块:1) 事件日志构建模块:负责将原始数据转换为RDF三元组,并将其添加到事件日志中。2) 查询处理模块:负责接收用户的查询,并将其转换为对事件日志的查询。3) 反事实推理模块:负责根据用户的干预,对事件日志进行分叉,并生成新的事件日志。4) 结果评估模块:负责评估反事实推理的结果。

关键创新:最重要的技术创新点在于使用确定性的事件图基质来表示世界状态,并利用日志分叉来实现反事实推理。与现有方法相比,该方法具有以下优势:1) 可解释性强:事件日志中的每个三元组都代表一个明确的事件,易于理解和解释。2) 精确度高:通过对日志进行精确的分叉,可以模拟不同的干预,从而实现精确的反事实推理。3) 泛化能力强:该方法不依赖于特定的领域知识,可以应用于不同的场景。

关键设计:关键设计包括:1) RDF三元组的类型定义:定义了不同类型的RDF三元组,用于表示不同类型的事件。2) 日志分叉策略:定义了如何对事件日志进行分叉,以模拟不同的干预。3) 查询语言:定义了一种查询语言,用于查询事件日志。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在CLEVRER数据集上,在所有四个问题类别上均超过了NS-DR符号预言机(分别高出9.89、20.26、17.65和0.80个百分点)。在twin-EventLog基准上,该方法以18.80分的联合准确率超过了具有完整上下文的Llama-3.1-8B。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、智能决策等领域。例如,在机器人导航中,可以利用该方法进行路径规划,避免碰撞。在自动驾驶中,可以利用该方法进行事故分析,提高安全性。在智能决策中,可以利用该方法进行风险评估,制定更合理的决策。

📄 摘要(原文)

We study event-graph substrates: a class of world models that represent agent state as an append-only log of typed RDF triples and answer counterfactual queries by forking the log under a structured intervention vocabulary. Substrates are inspectable at the triple level, support exact counterfactuals, and transfer across domains without learned components. We formalize the class, prove a duality between explanatory and counterfactual queries that reduces both to the same causal-ancestor traversal, and evaluate a 1,400-line CLEVRER-DSL interpreter atop a domain-agnostic substrate runtime at full CLEVRER validation scale (n=75,618). The substrate exceeds the NS-DR symbolic oracle on all four per-question categories (by 9.89, 20.26, 17.65, and 0.80 percentage points), and exceeds the parametric ALOE baseline on descriptive and explanatory while lagging on predictive and counterfactual. We also introduce twin-EventLog, a 500-specification Park-canonical Smallville counterfactual benchmark on which the substrate exceeds Llama-3.1-8B with full context by 18.80 points joint accuracy.