LLM-ARC: Enhancing LLMs with an Automated Reasoning Critic

📄 arXiv: 2406.17663v2 📥 PDF

作者: Aditya Kalyanpur, Kailash Karthik Saravanakumar, Victor Barres, Jennifer Chu-Carroll, David Melville, David Ferrucci

分类: cs.CL, cs.AI, cs.LO

发布日期: 2024-06-25 (更新: 2024-07-19)


💡 一句话要点

LLM-ARC:利用自动推理评论家增强LLM的逻辑推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 逻辑推理 自动推理 神经符号 Actor-Critic 答案集编程 自监督学习

📋 核心要点

  1. 现有LLM在复杂逻辑推理方面存在不足,难以保证推理的正确性和可靠性。
  2. LLM-ARC结合LLM和自动推理评论家,通过迭代优化逻辑程序来提升推理能力。
  3. 实验表明,LLM-ARC在FOLIO基准测试中显著优于LLM基线,达到新的SOTA。

📝 摘要(中文)

本文介绍了一种神经符号框架LLM-ARC,旨在通过将大型语言模型(LLM)与自动推理评论家(ARC)相结合,来增强LLM的逻辑推理能力。LLM-ARC采用Actor-Critic方法,其中LLM Actor生成声明性逻辑程序以及语义正确性的测试,而自动推理评论家评估代码,运行测试并提供关于测试失败的反馈以进行迭代改进。LLM-ARC使用答案集编程(ASP)实现,在测试复杂逻辑推理能力的FOLIO基准测试中,实现了88.32%的最新准确率。实验表明,相对于仅使用LLM的基线方法,LLM-ARC取得了显著的改进,突出了逻辑测试生成和迭代自我完善的重要性。通过完全自动化的自监督训练循环,Actor在带有Critic反馈的端到端对话跟踪上进行训练,从而获得了最佳结果。我们讨论了潜在的增强功能,并提供了详细的错误分析,展示了LLM-ARC在复杂自然语言推理任务中的鲁棒性和有效性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在复杂逻辑推理任务中的不足。现有方法,即直接使用LLM进行推理,往往难以保证推理过程的正确性和可靠性,尤其是在需要多步推理和处理复杂逻辑关系的情况下。LLM容易产生幻觉,导致推理结果错误。

核心思路:论文的核心思路是引入一个自动推理评论家(ARC)来辅助LLM进行推理。LLM作为Actor,负责生成逻辑程序和测试用例;ARC作为Critic,负责评估逻辑程序的正确性,并提供反馈。通过Actor-Critic的迭代优化,逐步提升LLM的逻辑推理能力。这种方法结合了LLM的生成能力和自动推理的验证能力,从而提高了推理的准确性和可靠性。

技术框架:LLM-ARC的技术框架主要包含两个模块:LLM Actor和自动推理评论家(ARC)。LLM Actor负责生成声明性逻辑程序(使用Answer Set Programming,ASP)以及相应的测试用例,用于验证程序的语义正确性。ARC则负责执行这些测试用例,并根据测试结果提供反馈。整个流程是一个迭代的过程,LLM Actor根据ARC的反馈不断改进生成的逻辑程序,直到满足要求为止。训练过程采用自监督学习,Actor在端到端对话跟踪上进行训练,Critic提供反馈信号。

关键创新:LLM-ARC的关键创新在于将LLM与自动推理相结合,形成一个闭环的反馈系统。通过自动生成测试用例和自动推理验证,可以有效地发现和纠正LLM在推理过程中产生的错误。这种方法避免了人工标注大量训练数据的需求,实现了自监督学习。此外,使用ASP作为逻辑程序的表示形式,使得推理过程更加透明和可解释。

关键设计:LLM Actor使用预训练的LLM(具体型号未知)作为基础模型,并进行微调以生成ASP代码和测试用例。ARC使用ASP求解器(具体求解器未知)来执行逻辑程序和测试用例。损失函数的设计目标是最大化通过测试用例的逻辑程序的数量,同时最小化生成的无效逻辑程序的数量。具体的参数设置和网络结构等技术细节在论文中可能未详细描述,需要进一步查阅论文原文或相关代码。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LLM-ARC在FOLIO基准测试中取得了88.32%的准确率,达到了新的SOTA。相比于仅使用LLM的基线方法,LLM-ARC取得了显著的性能提升,证明了自动推理评论家和迭代自我完善的有效性。实验结果表明,LLM-ARC能够有效地处理复杂的逻辑推理任务,并具有较强的鲁棒性。

🎯 应用场景

LLM-ARC具有广泛的应用前景,例如智能问答系统、知识图谱推理、代码生成和验证等。它可以提高这些应用在处理复杂逻辑推理任务时的准确性和可靠性。此外,LLM-ARC的自监督学习方法可以降低对人工标注数据的依赖,从而降低开发成本。未来,该技术有望应用于更广泛的自然语言处理和人工智能领域。

📄 摘要(原文)

We introduce LLM-ARC, a neuro-symbolic framework designed to enhance the logical reasoning capabilities of Large Language Models (LLMs), by combining them with an Automated Reasoning Critic (ARC). LLM-ARC employs an Actor-Critic method where the LLM Actor generates declarative logic programs along with tests for semantic correctness, while the Automated Reasoning Critic evaluates the code, runs the tests and provides feedback on test failures for iterative refinement. Implemented using Answer Set Programming (ASP), LLM-ARC achieves a new state-of-the-art accuracy of 88.32% on the FOLIO benchmark which tests complex logical reasoning capabilities. Our experiments demonstrate significant improvements over LLM-only baselines, highlighting the importance of logic test generation and iterative self-refinement. We achieve our best result using a fully automated self-supervised training loop where the Actor is trained on end-to-end dialog traces with Critic feedback. We discuss potential enhancements and provide a detailed error analysis, showcasing the robustness and efficacy of LLM-ARC for complex natural language reasoning tasks.