ACCORD: Closing the Commonsense Measurability Gap

作者: François Roewer-Després, Jinyue Feng, Zining Zhu, Frank Rudzicz

分类: cs.AI, cs.CL, cs.LG

发布日期: 2024-06-04 (更新: 2025-02-06)

备注: For leaderboard and dataset download, see https://www.codabench.org/competitions/3160/ For source code, see https://github.com/francois-rd/accord/

💡 一句话要点

ACCORD：弥合常识可衡量性差距，构建可控多跳反事实推理基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 常识推理 大型语言模型 反事实推理 基准测试 知识图谱

📋 核心要点

现有常识推理基准难以有效衡量LLM在复杂推理场景下的能力，缺乏对推理复杂度的精确控制。
ACCORD框架通过引入形式化元素和多跳反事实，实现了对常识推理复杂度的可控量化和自动基准生成。
实验表明，即使是GPT-4o等先进LLM在ACCORD基准上，随着推理复杂度的增加，性能也会迅速下降。

📝 摘要（中文）

我们提出了ACCORD，一个框架和基准测试套件，旨在通过受控的多跳反事实来解耦大型语言模型（LLM）的常识基础和推理能力。ACCORD引入了形式化元素到常识推理中，以显式地控制和量化超出典型1或2跳的推理复杂性。ACCORD的独特之处在于，它可以自动生成任意推理复杂度的基准，因此它可以随着未来LLM的改进而扩展。对最先进的LLM（包括GPT-4o (2024-05-13)、Llama-3-70B-Instruct和Mixtral-8x22B-Instruct-v0.1）的基准测试表明，性能随着适度的扩展而降低到随机水平，留下了巨大的改进空间。我们发布了本文中测试的基准测试套件的排行榜，以及用于自动生成更复杂基准的代码。

🔬 方法详解

问题定义：现有常识推理基准通常只涉及1-2跳的推理，难以充分评估LLM在复杂场景下的推理能力。此外，缺乏对推理复杂度的有效控制，使得难以准确衡量LLM的常识推理能力。现有的方法难以区分LLM是真正理解了常识，还是仅仅通过记忆或模式匹配来完成任务。

核心思路：ACCORD的核心思路是通过引入形式化的反事实推理，来显式地控制和量化常识推理的复杂度。通过构建多跳的反事实场景，可以迫使LLM进行更深入的推理，从而更准确地评估其常识理解能力。自动生成基准的能力保证了ACCORD可以随着LLM能力的提升而扩展。

技术框架：ACCORD框架包含以下几个主要模块：1) 常识知识图谱构建模块：用于构建包含丰富常识知识的图谱。2) 反事实场景生成模块：基于知识图谱，自动生成多跳的反事实推理场景。3) 问题生成模块：根据反事实场景，生成相应的推理问题。4) 评估模块：评估LLM在这些问题上的表现。整个流程旨在创建一个可控、可扩展的常识推理基准。

关键创新：ACCORD最重要的创新点在于其能够自动生成任意复杂度的常识推理基准。与以往依赖人工标注或固定数据集的方法不同，ACCORD可以根据LLM的能力动态调整基准的难度，从而更有效地评估其常识推理能力。此外，ACCORD引入了形式化的反事实推理，使得可以更精确地控制推理的复杂度。

关键设计：ACCORD的关键设计包括：1) 使用知识图谱来表示常识知识，并利用图谱的结构来生成反事实场景。2) 定义了推理复杂度的度量标准，例如反事实推理的跳数。3) 设计了多种类型的推理问题，例如选择题、填空题等，以全面评估LLM的常识推理能力。具体参数设置和损失函数未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是GPT-4o、Llama-3-70B-Instruct和Mixtral-8x22B-Instruct-v0.1等最先进的LLM，在ACCORD基准上，随着推理复杂度的增加，性能也会迅速下降到接近随机水平。这表明当前LLM在常识推理方面仍有很大的提升空间，ACCORD提供了一个有效的工具来评估和推动LLM在该领域的进展。具体性能数据未知。

🎯 应用场景

ACCORD框架可用于评估和提升LLM的常识推理能力，从而提高LLM在各种实际应用中的表现，例如智能对话、问答系统、机器人导航等。通过不断提高LLM的常识推理能力，可以使其更好地理解人类意图，并做出更合理的决策，从而实现更智能、更可靠的人工智能系统。

📄 摘要（原文）

We present ACCORD, a framework and benchmark suite for disentangling the commonsense grounding and reasoning abilities of large language models (LLMs) through controlled, multi-hop counterfactuals. ACCORD introduces formal elements to commonsense reasoning to explicitly control and quantify reasoning complexity beyond the typical 1 or 2 hops. Uniquely, ACCORD can automatically generate benchmarks of arbitrary reasoning complexity, and so it scales with future LLM improvements. Benchmarking state-of-the-art LLMs -- including GPT-4o (2024-05-13), Llama-3-70B-Instruct, and Mixtral-8x22B-Instruct-v0.1 -- shows performance degrading to random chance with only moderate scaling, leaving substantial headroom for improvement. We release a leaderboard of the benchmark suite tested in this work, as well as code for automatically generating more complex benchmarks.

ACCORD: Closing the Commonsense Measurability Gap

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理