ACCORD: Closing the Commonsense Measurability Gap

📄 arXiv: 2406.02804v2 📥 PDF

作者: François Roewer-Després, Jinyue Feng, Zining Zhu, Frank Rudzicz

分类: cs.AI, cs.CL, cs.LG

发布日期: 2024-06-04 (更新: 2025-02-06)

备注: For leaderboard and dataset download, see https://www.codabench.org/competitions/3160/ For source code, see https://github.com/francois-rd/accord/


💡 一句话要点

ACCORD:弥合常识可衡量性差距,构建可控多跳反事实推理基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 常识推理 大型语言模型 反事实推理 基准测试 知识图谱

📋 核心要点

  1. 现有常识推理基准难以有效衡量LLM在复杂推理场景下的能力,缺乏对推理复杂度的精确控制。
  2. ACCORD框架通过引入形式化元素和多跳反事实,实现了对常识推理复杂度的可控量化和自动基准生成。
  3. 实验表明,即使是GPT-4o等先进LLM在ACCORD基准上,随着推理复杂度的增加,性能也会迅速下降。

📝 摘要(中文)

我们提出了ACCORD,一个框架和基准测试套件,旨在通过受控的多跳反事实来解耦大型语言模型(LLM)的常识基础和推理能力。ACCORD引入了形式化元素到常识推理中,以显式地控制和量化超出典型1或2跳的推理复杂性。ACCORD的独特之处在于,它可以自动生成任意推理复杂度的基准,因此它可以随着未来LLM的改进而扩展。对最先进的LLM(包括GPT-4o (2024-05-13)、Llama-3-70B-Instruct和Mixtral-8x22B-Instruct-v0.1)的基准测试表明,性能随着适度的扩展而降低到随机水平,留下了巨大的改进空间。我们发布了本文中测试的基准测试套件的排行榜,以及用于自动生成更复杂基准的代码。

🔬 方法详解

问题定义:现有常识推理基准通常只涉及1-2跳的推理,难以充分评估LLM在复杂场景下的推理能力。此外,缺乏对推理复杂度的有效控制,使得难以准确衡量LLM的常识推理能力。现有的方法难以区分LLM是真正理解了常识,还是仅仅通过记忆或模式匹配来完成任务。

核心思路:ACCORD的核心思路是通过引入形式化的反事实推理,来显式地控制和量化常识推理的复杂度。通过构建多跳的反事实场景,可以迫使LLM进行更深入的推理,从而更准确地评估其常识理解能力。自动生成基准的能力保证了ACCORD可以随着LLM能力的提升而扩展。

技术框架:ACCORD框架包含以下几个主要模块:1) 常识知识图谱构建模块:用于构建包含丰富常识知识的图谱。2) 反事实场景生成模块:基于知识图谱,自动生成多跳的反事实推理场景。3) 问题生成模块:根据反事实场景,生成相应的推理问题。4) 评估模块:评估LLM在这些问题上的表现。整个流程旨在创建一个可控、可扩展的常识推理基准。

关键创新:ACCORD最重要的创新点在于其能够自动生成任意复杂度的常识推理基准。与以往依赖人工标注或固定数据集的方法不同,ACCORD可以根据LLM的能力动态调整基准的难度,从而更有效地评估其常识推理能力。此外,ACCORD引入了形式化的反事实推理,使得可以更精确地控制推理的复杂度。

关键设计:ACCORD的关键设计包括:1) 使用知识图谱来表示常识知识,并利用图谱的结构来生成反事实场景。2) 定义了推理复杂度的度量标准,例如反事实推理的跳数。3) 设计了多种类型的推理问题,例如选择题、填空题等,以全面评估LLM的常识推理能力。具体参数设置和损失函数未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是GPT-4o、Llama-3-70B-Instruct和Mixtral-8x22B-Instruct-v0.1等最先进的LLM,在ACCORD基准上,随着推理复杂度的增加,性能也会迅速下降到接近随机水平。这表明当前LLM在常识推理方面仍有很大的提升空间,ACCORD提供了一个有效的工具来评估和推动LLM在该领域的进展。具体性能数据未知。

🎯 应用场景

ACCORD框架可用于评估和提升LLM的常识推理能力,从而提高LLM在各种实际应用中的表现,例如智能对话、问答系统、机器人导航等。通过不断提高LLM的常识推理能力,可以使其更好地理解人类意图,并做出更合理的决策,从而实现更智能、更可靠的人工智能系统。

📄 摘要(原文)

We present ACCORD, a framework and benchmark suite for disentangling the commonsense grounding and reasoning abilities of large language models (LLMs) through controlled, multi-hop counterfactuals. ACCORD introduces formal elements to commonsense reasoning to explicitly control and quantify reasoning complexity beyond the typical 1 or 2 hops. Uniquely, ACCORD can automatically generate benchmarks of arbitrary reasoning complexity, and so it scales with future LLM improvements. Benchmarking state-of-the-art LLMs -- including GPT-4o (2024-05-13), Llama-3-70B-Instruct, and Mixtral-8x22B-Instruct-v0.1 -- shows performance degrading to random chance with only moderate scaling, leaving substantial headroom for improvement. We release a leaderboard of the benchmark suite tested in this work, as well as code for automatically generating more complex benchmarks.