CauTion: Knowing When to Trust LLMs for Ensemble Causal Discovery

📄 arXiv: 2606.03602v1 📥 PDF

作者: Bo Peng, Kaiwen Wu, Sirui Chen, Zhiheng Wang, Yu Qiao, Chaochao Lu

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-06-02

🔗 代码/项目: GITHUB


💡 一句话要点

提出CauTion框架以解决因果发现中的信任问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 因果发现 大型语言模型 统计推断 信任校准 算法集成 数据分析

📋 核心要点

  1. 现有因果发现方法在处理观察数据时面临统计方法的局限性,尤其是对算法特定偏见的敏感性。
  2. CauTion框架通过共识过滤和信任校准机制,将LLM领域知识与统计因果发现算法集成,提升结果的可靠性。
  3. 实验结果显示,CauTion在多个数据集上超越了现有基线,尤其在较大图上表现出更显著的优势。

📝 摘要(中文)

因果发现从观察数据中提取信息仍然面临挑战,尤其是纯统计方法的局限性,如等价类内的统计可区分性和对有限样本大小的敏感性。大型语言模型(LLMs)提供了有希望的领域知识来源,但现有的LLM增强方法易受LLM错误影响且成本高昂。为了解决这些问题,本文提出了CauTion框架,通过共识过滤和LLM可靠性估计,可靠地将LLM领域知识整合到统计因果发现算法的集成中。CauTion分为三个阶段,首先通过共识投票解决算法一致的边缘,其次通过信任校准机制评估LLM和算法的相对可靠性,最后应用循环修复步骤确保最终因果图有效无环。实验表明,CauTion在六个数据集上表现优于数据中心和LLM增强的基线。

🔬 方法详解

问题定义:本文旨在解决因果发现中对观察数据的分析面临的挑战,尤其是现有统计方法的局限性和对LLM错误的敏感性。

核心思路:CauTion框架通过集成多个统计因果发现算法,并结合LLM的领域知识,利用共识投票和信任校准机制,提升因果发现的准确性和可靠性。

技术框架:CauTion框架分为三个主要阶段:第一阶段是算法集成,通过共识投票解决算法一致的边缘;第二阶段是信任校准,通过无注释的信任校准程序评估LLM和算法的可靠性;第三阶段是循环修复,确保最终因果图有效无环。

关键创新:CauTion的主要创新在于其信任校准机制,能够在没有注释的情况下评估LLM和算法的相对可靠性,从而实现信任加权投票,避免依赖单一算法的偏见。

关键设计:框架中采用的关键设计包括信任校准过程的无注释特性,以及在信任加权投票中对不可靠算法证据的限制,确保LLM的裁决仅限于这些边缘。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在六个数据集上的实验结果表明,CauTion框架在因果发现任务中表现优于数据中心和LLM增强的基线,特别是在较大图上,准确率接近完美,且对LLM错误表现出强大的鲁棒性。

🎯 应用场景

CauTion框架在因果推断、社会科学研究、医疗数据分析等领域具有广泛的应用潜力。通过提高因果发现的可靠性,研究人员可以更准确地理解变量之间的关系,从而为决策提供更有力的支持。未来,该框架可能推动因果推断领域的进一步研究和应用。

📄 摘要(原文)

Causal discovery from observational data remains challenging due to the fundamental limitations of purely statistical methods, such as statistical distinguishability within equivalence classes and sensitivity to finite sample sizes. While large language models (LLMs) offer a promising source of domain knowledge to complement statistical inference, existing LLM-augmented methods are vulnerable to LLM errors and incur high token costs. Moreover, reliance on a single data-centric algorithm can make results sensitive to algorithm-specific biases. To address these limitations, we propose CauTion, a framework that reliably integrates LLM domain knowledge into an ensemble of statistical causal discovery algorithms through consensus filtering and LLM reliability estimation. CauTion proceeds in three stages. First, an algorithm ensemble utilizes a consensus voting to resolve up to 96% of edges on which algorithms agree, achieving near-perfect accuracy on the filtered consensus edges. Second, a trust-calibrated arbitration mechanism estimates the relative reliability of the LLM and the algorithms via an annotation-free trust calibration procedure, which is then utilized to govern a trust-weighted voting process that restricts LLM arbitration exclusively to edges with unreliable algorithmic evidence. Third, a cycle repair step is applied to guarantee the final causal graph is validly acyclic. Experiments on six datasets demonstrate that CauTion consistently outperforms both data-centric and LLM-augmented baselines, with larger gains on larger graphs and strong robustness to LLM errors. Code is available at https://github.com/OpenCausaLab/CauTion.