Deterministic Event-Graph Substrates as World Models for Counterfactual Reasoning

作者: Fabio Rovai

分类: cs.AI, cs.CV, cs.LO

发布日期: 2026-05-15

备注: 10 pages, 3 figures, 2 tables

💡 一句话要点

提出基于确定性事件图基质的世界模型，用于反事实推理。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 世界模型 反事实推理 事件图 RDF三元组 知识图谱

📋 核心要点

现有世界模型在处理复杂场景的反事实推理时，缺乏可解释性和精确性，难以进行结构化干预。
提出事件图基质，通过维护RDF三元组的仅追加日志来表示世界状态，并利用日志分叉实现反事实查询。
实验表明，该方法在CLEVRER和twin-EventLog基准上，优于现有符号推理和参数化模型，尤其在可解释性方面。

📝 摘要（中文）

本文研究了事件图基质：一类世界模型，它将智能体状态表示为类型化的RDF三元组的仅追加日志，并通过在结构化干预词汇下分叉日志来回答反事实查询。基质在三元组级别可检查，支持精确的反事实，并在没有学习组件的情况下跨领域迁移。本文形式化了该类，证明了解释性查询和反事实查询之间的对偶性，将两者都简化为相同的因果祖先遍历，并在完整的CLEVRER验证规模（n=75,618）上评估了一个基于领域无关基质运行时的1,400行CLEVRER-DSL解释器。该基质在所有四个按问题类别上超过了NS-DR符号预言机（分别高出9.89、20.26、17.65和0.80个百分点），并且在描述性和解释性方面超过了参数化的ALOE基线，但在预测性和反事实性方面落后。本文还介绍了twin-EventLog，这是一个包含500个规范的Park-canonical Smallville反事实基准，在该基准上，该基质以18.80分的联合准确率超过了具有完整上下文的Llama-3.1-8B。

🔬 方法详解

问题定义：论文旨在解决现有世界模型在反事实推理中存在的不足，特别是缺乏可解释性、难以进行精确干预以及泛化能力有限的问题。现有方法，如基于神经网络的模型，通常难以解释其推理过程，并且在处理复杂场景时容易出错。符号推理方法虽然具有较好的可解释性，但在处理大规模数据时效率较低。

核心思路：论文的核心思路是利用事件图基质来表示世界状态，并利用该基质进行反事实推理。事件图基质通过维护RDF三元组的仅追加日志来记录世界状态的变化，每个三元组表示一个事件。通过对日志进行分叉，可以模拟不同的干预，从而实现反事实推理。这种方法具有可解释性强、精确度高和泛化能力强的优点。

技术框架：整体框架包括以下几个主要模块：1) 事件日志构建模块：负责将原始数据转换为RDF三元组，并将其添加到事件日志中。2) 查询处理模块：负责接收用户的查询，并将其转换为对事件日志的查询。3) 反事实推理模块：负责根据用户的干预，对事件日志进行分叉，并生成新的事件日志。4) 结果评估模块：负责评估反事实推理的结果。

关键创新：最重要的技术创新点在于使用确定性的事件图基质来表示世界状态，并利用日志分叉来实现反事实推理。与现有方法相比，该方法具有以下优势：1) 可解释性强：事件日志中的每个三元组都代表一个明确的事件，易于理解和解释。2) 精确度高：通过对日志进行精确的分叉，可以模拟不同的干预，从而实现精确的反事实推理。3) 泛化能力强：该方法不依赖于特定的领域知识，可以应用于不同的场景。

关键设计：关键设计包括：1) RDF三元组的类型定义：定义了不同类型的RDF三元组，用于表示不同类型的事件。2) 日志分叉策略：定义了如何对事件日志进行分叉，以模拟不同的干预。3) 查询语言：定义了一种查询语言，用于查询事件日志。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在CLEVRER数据集上，在所有四个问题类别上均超过了NS-DR符号预言机（分别高出9.89、20.26、17.65和0.80个百分点）。在twin-EventLog基准上，该方法以18.80分的联合准确率超过了具有完整上下文的Llama-3.1-8B。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、智能决策等领域。例如，在机器人导航中，可以利用该方法进行路径规划，避免碰撞。在自动驾驶中，可以利用该方法进行事故分析，提高安全性。在智能决策中，可以利用该方法进行风险评估，制定更合理的决策。

📄 摘要（原文）

We study event-graph substrates: a class of world models that represent agent state as an append-only log of typed RDF triples and answer counterfactual queries by forking the log under a structured intervention vocabulary. Substrates are inspectable at the triple level, support exact counterfactuals, and transfer across domains without learned components. We formalize the class, prove a duality between explanatory and counterfactual queries that reduces both to the same causal-ancestor traversal, and evaluate a 1,400-line CLEVRER-DSL interpreter atop a domain-agnostic substrate runtime at full CLEVRER validation scale (n=75,618). The substrate exceeds the NS-DR symbolic oracle on all four per-question categories (by 9.89, 20.26, 17.65, and 0.80 percentage points), and exceeds the parametric ALOE baseline on descriptive and explanatory while lagging on predictive and counterfactual. We also introduce twin-EventLog, a 500-specification Park-canonical Smallville counterfactual benchmark on which the substrate exceeds Llama-3.1-8B with full context by 18.80 points joint accuracy.

Deterministic Event-Graph Substrates as World Models for Counterfactual Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理