CommonWhy: A Dataset for Evaluating Entity-Based Causal Commonsense Reasoning in Large Language Models
作者: Armin Toroghi, Faeze Moradi Kalarde, Scott Sanner
分类: cs.CL
发布日期: 2026-05-13
💡 一句话要点
提出CommonWhy数据集,用于评估大语言模型中基于实体的因果常识推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 常识推理 因果推理 知识图谱问答 大型语言模型 数据集
📋 核心要点
- 现有数据集评估LLM常识推理时,侧重于判断题或选择题,忽略了模型生成因果解释的能力。
- CommonWhy数据集包含15000个“为什么”问题,旨在评估LLM基于实体的因果常识推理能力。
- 实验表明,现有LLM在CommonWhy数据集上表现出事实幻觉和因果推理失败等问题。
📝 摘要(中文)
为了有效地与现实世界交互,大型语言模型(LLM)需要基于实体的常识推理能力,这是一项具有挑战性的任务,需要将关于特定实体的客观知识与常识推理相结合。现有的用于评估LLM基于实体的常识推理的数据集主要集中在True/False或多项选择题上,在很大程度上没有明确评估模型在关于原因和结果的溯因推理以及生成解释方面的能力。在这项工作中,我们引入了CommonWhy,一个包含15,000个“为什么”问题的数据集,旨在评估LLM中关于因果关系的基于实体的常识推理能力。CommonWhy也可以作为知识图谱问答(KGQA)的基准,因为回答其查询所需的所有支持知识都可以在Wikidata知识图谱中找到。与主要测试事实检索的现有KGQA数据集不同,CommonWhy针对因果常识推理,为KGQA评估建立了一种新的范例。使用最先进的LLM和基于LLM的KGQA方法进行的实验揭示了它们的重大缺陷,包括频繁的事实幻觉和因果推理失败。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在基于实体的因果常识推理方面的不足。现有方法主要通过True/False或多项选择题来评估LLM,缺乏对模型生成因果解释能力的直接评估,并且容易出现事实性错误(幻觉)和推理错误。
核心思路:论文的核心思路是构建一个专门用于评估LLM因果常识推理能力的数据集CommonWhy。该数据集包含大量“为什么”类型的问题,这些问题需要模型结合实体知识和常识进行推理,从而更全面地评估模型的因果推理能力。
技术框架:CommonWhy数据集的构建流程包括:问题生成、知识图谱对齐和人工验证。问题生成阶段,设计了特定的模板和规则,以确保问题具有挑战性和多样性。知识图谱对齐阶段,将问题与Wikidata知识图谱中的实体和关系进行对齐,为模型提供必要的背景知识。人工验证阶段,由专家对问题和答案进行审核,确保数据集的质量。
关键创新:CommonWhy数据集的关键创新在于其专注于因果常识推理,并将其与知识图谱问答(KGQA)任务相结合。与传统的KGQA数据集不同,CommonWhy不仅测试模型的事实检索能力,更侧重于评估模型的因果推理能力。此外,CommonWhy数据集的设计考虑了LLM容易出现事实性错误的问题,因此更加强调对模型生成答案的真实性和合理性的评估。
关键设计:CommonWhy数据集包含15,000个“为什么”问题,这些问题涵盖了多个领域和主题。每个问题都与Wikidata知识图谱中的实体和关系相关联,并提供了相应的答案和解释。数据集还包含一些负样本,用于评估模型区分正确答案和错误答案的能力。在实验中,论文使用了多种评估指标,包括准确率、召回率和F1值,以全面评估模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是最先进的LLM和基于LLM的KGQA方法在CommonWhy数据集上也表现出显著的不足,包括频繁的事实幻觉和因果推理失败。这表明现有LLM在因果常识推理方面仍有很大的提升空间。具体性能数据未知,但论文强调了现有模型的缺陷。
🎯 应用场景
CommonWhy数据集可用于评估和提升LLM在常识推理、知识图谱问答、智能对话等领域的性能。通过该数据集,可以更好地理解LLM的推理能力,并开发更可靠、更智能的AI系统。未来,该数据集可以扩展到其他语言和领域,并与其他类型的常识推理任务相结合。
📄 摘要(原文)
To effectively interact with the real world, Large Language Models (LLMs) require entity-based commonsense reasoning, a challenging task that necessitates integrating factual knowledge about specific entities with commonsense inference. Existing datasets for evaluating LLM entity-based commonsense reasoning have largely focused on True/False or multiple-choice questions, leaving the explicit assessment of the model's ability in abductive reasoning about causes and effects and generating explanations largely unexamined. In this work, we introduce CommonWhy, a dataset of 15,000 why questions designed to evaluate entity-based commonsense reasoning about causal relationships in LLMs. CommonWhy also serves as a Knowledge Graph Question Answering (KGQA) benchmark, as all supporting knowledge required to answer its queries is available in the Wikidata knowledge graph. Unlike existing KGQA datasets, which primarily test fact retrieval, CommonWhy targets causal commonsense reasoning, establishing a new paradigm for KGQA evaluation. Experiments with state-of-the-art LLMs and LLM-based KGQA methods reveal their significant shortcomings, including frequent factual hallucinations and failures in causal reasoning.