Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents

作者: Sourena Khanzadeh

分类: cs.AI

发布日期: 2026-01-05

💡 一句话要点

Project Ariadne：提出基于结构因果模型的LLM Agent推理忠实性审计框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 可解释AI 结构因果模型 反事实推理 推理忠实性 因果解耦 Ariadne Score

📋 核心要点

现有LLM Agent的推理过程缺乏透明度，难以判断其“思维链”是真实推理还是事后解释。
Project Ariadne框架通过结构因果模型和反事实干预，量化推理步骤对最终结果的因果影响。
实验发现Agent存在“因果解耦”现象，即推理逻辑与最终决策不一致，并提出Ariadne Score作为评估指标。

📝 摘要（中文）

随着大型语言模型（LLM）Agent越来越多地承担高风险的自主决策任务，其推理过程的透明度已成为一个关键的安全问题。虽然“思维链”（CoT）提示允许Agent生成人类可读的推理轨迹，但这些轨迹是否是模型输出的忠实生成驱动因素，还是仅仅是事后合理化，仍然不清楚。我们引入了Project Ariadne，这是一个新颖的可解释AI（XAI）框架，它利用结构因果模型（SCM）和反事实逻辑来审计Agent推理的因果完整性。与依赖于表面文本相似性的现有可解释性方法不同，Project Ariadne对中间推理节点执行“硬干预”（do-calculus）——系统地反转逻辑、否定前提和逆转事实主张——以测量终端答案的“因果敏感性”（φ）。我们对最先进模型的实证评估揭示了一个持续存在的“忠实性差距”。我们定义并检测到一种广泛存在的故障模式，称为“因果解耦”，其中Agent在事实和科学领域表现出高达0.77的违反密度（ρ）。在这些情况下，尽管内部逻辑相互矛盾，Agent仍得出相同的结论，证明它们的推理轨迹充当“推理剧场”，而决策由潜在的参数先验控制。我们的研究结果表明，当前的Agent架构本质上容易产生不忠实的解释，我们提出了Ariadne Score作为一种新的基准，用于将陈述的逻辑与模型行为对齐。

🔬 方法详解

问题定义：论文旨在解决LLM Agent推理过程缺乏透明性和可信度的问题。现有的“思维链”方法虽然可以生成人类可读的推理过程，但无法保证这些推理过程是模型做出决策的真正原因，还是仅仅是事后对结果的解释。这种不确定性在高风险决策场景下会带来安全隐患。

核心思路：论文的核心思路是利用结构因果模型（SCM）来建模LLM Agent的推理过程，并通过反事实干预来评估推理步骤对最终结果的因果影响。通过系统地改变推理过程中的关键节点，观察最终结果的变化，从而判断推理过程是否对结果起到了真正的因果作用。如果结果对推理过程的变化不敏感，则说明推理过程可能只是事后解释，而非真正的决策驱动因素。

技术框架：Project Ariadne框架主要包含以下几个步骤：1) 使用“思维链”提示LLM Agent生成推理过程；2) 构建表示Agent推理过程的结构因果模型，将每个推理步骤表示为一个节点；3) 对中间推理节点进行“硬干预”（do-calculus），例如反转逻辑、否定前提等；4) 测量终端答案的“因果敏感性”（φ），即最终结果对干预的敏感程度；5) 计算“违反密度”（ρ），用于衡量Agent推理过程中“因果解耦”的程度。

关键创新：该论文最重要的技术创新在于将结构因果模型和反事实干预引入到LLM Agent的推理过程审计中。与传统的基于文本相似性的可解释性方法不同，Project Ariadne直接对推理过程进行因果干预，从而更准确地评估推理过程的真实性和可靠性。此外，论文还定义了“因果解耦”这一新的故障模式，并提出了相应的评估指标。

关键设计：论文的关键设计包括：1) 使用do-calculus进行硬干预，确保干预的因果效应；2) 定义“因果敏感性”（φ）和“违反密度”（ρ）等指标，用于量化推理过程的因果关系；3) 提出Ariadne Score作为评估LLM Agent推理忠实性的基准。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的LLM Agent普遍存在“忠实性差距”，即推理过程与最终决策之间存在不一致性。在事实和科学领域，Agent的“违反密度”（ρ）高达0.77，表明Agent在这些领域更容易出现“因果解耦”现象。论文提出的Ariadne Score可以有效评估LLM Agent的推理忠实性。

🎯 应用场景

该研究成果可应用于对LLM Agent进行安全性和可靠性评估，尤其是在金融、医疗等高风险领域。通过审计Agent的推理过程，可以发现潜在的决策偏差和不合理性，从而提高Agent的决策质量和可信度。此外，该研究还可以促进LLM Agent的透明化和可解释性，增强用户对Agent的信任。

📄 摘要（原文）

As Large Language Model (LLM) agents are increasingly tasked with high-stakes autonomous decision-making, the transparency of their reasoning processes has become a critical safety concern. While \textit{Chain-of-Thought} (CoT) prompting allows agents to generate human-readable reasoning traces, it remains unclear whether these traces are \textbf{faithful} generative drivers of the model's output or merely \textbf{post-hoc rationalizations}. We introduce \textbf{Project Ariadne}, a novel XAI framework that utilizes Structural Causal Models (SCMs) and counterfactual logic to audit the causal integrity of agentic reasoning. Unlike existing interpretability methods that rely on surface-level textual similarity, Project Ariadne performs \textbf{hard interventions} ($do$-calculus) on intermediate reasoning nodes -- systematically inverting logic, negating premises, and reversing factual claims -- to measure the \textbf{Causal Sensitivity} ($φ$) of the terminal answer. Our empirical evaluation of state-of-the-art models reveals a persistent \textit{Faithfulness Gap}. We define and detect a widespread failure mode termed \textbf{Causal Decoupling}, where agents exhibit a violation density ($ρ$) of up to $0.77$ in factual and scientific domains. In these instances, agents arrive at identical conclusions despite contradictory internal logic, proving that their reasoning traces function as "Reasoning Theater" while decision-making is governed by latent parametric priors. Our findings suggest that current agentic architectures are inherently prone to unfaithful explanation, and we propose the Ariadne Score as a new benchmark for aligning stated logic with model action.

Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册