Consistency evaluation of benchmarks used for causal discovery
作者: Yuzhe Zhang, Chihui Chen, Lina Yao, Chen Wang
分类: cs.AI
发布日期: 2026-06-01
💡 一句话要点
提出一种基于LLM的自动pipeline,用于评估因果发现benchmark的知识一致性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 因果发现 benchmark评估 大型语言模型 知识一致性 自动化pipeline
📋 核心要点
- 现有因果发现benchmark可能包含与最新领域知识不一致的信息,影响LLM因果发现方法的评估。
- 设计自动pipeline,从科学数据库检索论文,利用LLM评估benchmark因果图与领域知识的一致性。
- 评估11个真实benchmark,发现它们与领域研究的一致性差异显著,对因果发现研究有重要影响。
📝 摘要(中文)
在图形因果模型中,因果发现旨在基于数值数据和纯文本的领域知识构建因果图。然而,因果发现方法的评估仍然是一个挑战,因为领域研究的进展常常导致benchmark因果图包含不一致的知识。这个问题尤其影响了基于大型语言模型(LLM)的因果发现方法的评估,因为它们对文献中的新发现很敏感。本文首次系统地研究了benchmark因果图的质量。具体来说,我们设计了一个pipeline,可以自动从科学数据库中检索相关研究论文,并提示LLM检查benchmark因果图与领域研究论文之间的一致性。我们评估了11个流行的真实世界benchmark,我们的pipeline总共处理了38,081篇领域论文。结果表明,流行的benchmark在与领域研究的一致性方面差异很大,这对因果发现研究具有明确的意义。
🔬 方法详解
问题定义:论文旨在解决因果发现领域中benchmark数据集质量评估的问题。现有的benchmark数据集可能由于领域知识的更新而变得过时,导致使用这些benchmark评估因果发现方法(特别是基于LLM的方法)时产生偏差。现有方法缺乏有效评估benchmark数据集与最新领域知识一致性的手段。
核心思路:论文的核心思路是利用大型语言模型(LLM)的知识推理能力,自动评估benchmark因果图与领域研究论文之间的一致性。通过构建一个自动化的pipeline,从科学数据库中检索相关论文,并使用LLM来判断benchmark中的因果关系是否与检索到的论文中的知识相符。
技术框架:该pipeline包含以下主要阶段:1) 从科学数据库(如PubMed)检索与benchmark相关的研究论文;2) 使用LLM对benchmark因果图中的因果关系进行验证,通过prompt工程,让LLM判断该因果关系是否在检索到的论文中得到支持;3) 对LLM的验证结果进行汇总和分析,评估benchmark的整体一致性。
关键创新:该论文的关键创新在于:1) 首次系统地研究了因果发现benchmark的质量问题;2) 提出了一种基于LLM的自动化pipeline,能够有效地评估benchmark与领域知识的一致性;3) 通过对多个真实世界benchmark的评估,揭示了现有benchmark在一致性方面存在的差异。
关键设计:在prompt工程方面,论文设计了特定的prompt模板,引导LLM进行因果关系验证。例如,prompt可能包含benchmark中的因果关系描述,并要求LLM判断该关系是否在检索到的论文中得到支持。此外,论文还可能使用了特定的LLM参数设置,以提高验证的准确性和可靠性。具体的损失函数和网络结构不涉及,因为论文主要关注benchmark评估而非模型训练。
🖼️ 关键图片
📊 实验亮点
论文评估了11个流行的真实世界benchmark,总共处理了38,081篇领域论文。结果表明,不同的benchmark在与领域研究的一致性方面存在显著差异。例如,某些benchmark的一致性比例较低,表明其包含较多过时的或错误的因果关系。
🎯 应用场景
该研究成果可应用于因果发现算法的客观评估,帮助研究人员选择更可靠的benchmark,从而推动因果发现领域的发展。此外,该方法也可扩展到其他知识密集型任务的benchmark评估,例如知识图谱补全、关系抽取等,具有广泛的应用前景。
📄 摘要(原文)
In graphical causal model, causal discovery aims to construct a causal graph based on numerical data and domain knowledge in plain text. However, the evaluation of causal discovery methods remains a challenge in the area as the progress of domain researches often makes benchmark causal graphs contain mis-aligned knowledge. This problem especially affects the evaluation of large language model (LLM) based causal discovery methods as they are sensitive to the new discoveries in the literature. This work is the first to systematically study the quality of benchmark causal graphs. Specifically, we design a pipeline that automatically retrieves relevant research papers from scientific databases, and prompts LLMs to check the consistency between the benchmark causal graphs and domain research papers. We evaluate 11 popular real-world benchmarks, for which our pipeline in total proceeds 38,081 domain papers. Our results show that popular benchmarks vary significantly in their consistency with domain research, with clear implications for causal discovery research.