LLMs as ASP Programmers: Self-Correction Enables Task-Agnostic Nonmonotonic Reasoning

📄 arXiv: 2604.27960v1 📥 PDF

作者: Adam Ishay, Joohyung Lee

分类: cs.AI

发布日期: 2026-04-30

备注: 30 pages


💡 一句话要点

提出LLM+ASP框架,利用自校正实现任务无关的非单调推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 神经符号推理 非单调推理 Answer Set Programming 自校正 知识表示 常识推理

📋 核心要点

  1. 现有神经符号方法依赖单调逻辑,无法有效处理人类认知中的可废止推理。
  2. LLM+ASP框架将自然语言转化为ASP,利用稳定模型语义表达默认规则和例外情况。
  3. 通过自校正循环迭代改进,无需手工领域知识,并在多个基准测试中验证有效性。

📝 摘要(中文)

现有的大语言模型(LLMs)在推理方面取得了显著进展,但仍面临计算成本高、逻辑不一致以及在高复杂度问题上性能急剧下降等挑战。神经符号方法试图通过将LLMs与符号推理器结合来缓解这些问题,但现有方法通常依赖于单调逻辑(例如SMT),无法表示人类认知中至关重要的可废止推理。本文提出了“LLM+ASP”框架,该框架将自然语言翻译成基于稳定模型语义的非单调形式化语言Answer Set Programming (ASP)。与之前需要手动编写知识模块、特定领域提示或评估仅限于单个问题类别的“LLM+ASP”方法不同,我们的框架无需任何任务工程,并统一应用于各种推理任务。我们的系统利用自动自校正循环,其中来自ASP求解器的结构化反馈能够进行迭代改进。在六个不同的基准测试中进行评估,结果表明:(1)稳定模型语义允许LLMs自然地表达默认规则和例外情况,在非单调任务上明显优于基于SMT的替代方案;(2)迭代自校正是性能的主要驱动力,有效地取代了手工制作领域知识的需求;(3)紧凑的上下文参考指南明显优于冗长的文档,揭示了一种“上下文腐烂”现象,即过多的上下文会阻碍约束的遵守。

🔬 方法详解

问题定义:现有的大语言模型在复杂推理任务中表现不佳,尤其是在需要非单调推理的场景下。传统的神经符号方法,如基于SMT的系统,由于其单调性,无法自然地表达默认规则和例外情况,限制了其在现实世界问题中的应用。此外,许多现有的LLM+符号推理方法需要针对特定任务进行手动调整和知识工程,缺乏通用性和可扩展性。

核心思路:本文的核心思路是利用Answer Set Programming (ASP)的非单调推理能力,结合大语言模型的自然语言理解能力,构建一个通用的推理框架。通过将自然语言问题转化为ASP程序,并利用ASP求解器进行推理,可以有效地处理包含默认规则和例外情况的复杂推理任务。此外,通过引入自校正机制,可以迭代地改进LLM生成的ASP程序,从而提高推理的准确性和鲁棒性。

技术框架:LLM+ASP框架主要包含以下几个模块:1) 自然语言到ASP程序的转换模块:使用LLM将自然语言问题转化为ASP程序。2) ASP求解器:使用ASP求解器(如clingo)计算ASP程序的稳定模型。3) 反馈模块:根据ASP求解器的结果,生成反馈信息,指导LLM改进ASP程序。4) 自校正模块:使用LLM根据反馈信息,迭代地改进ASP程序。整个流程是一个循环迭代的过程,直到ASP求解器找到满足条件的稳定模型,或者达到最大迭代次数。

关键创新:该论文的关键创新在于:1) 提出了一个通用的LLM+ASP框架,无需针对特定任务进行手动调整和知识工程。2) 利用ASP的非单调推理能力,有效地处理了包含默认规则和例外情况的复杂推理任务。3) 引入了自校正机制,通过迭代地改进LLM生成的ASP程序,提高了推理的准确性和鲁棒性。4) 发现紧凑的上下文参考指南优于冗长的文档,揭示了“上下文腐烂”现象。

关键设计:在自然语言到ASP程序的转换模块中,使用了预训练的大语言模型(具体模型未知),并设计了合适的prompt,引导LLM生成符合ASP语法的程序。在自校正模块中,使用了ASP求解器的错误信息作为反馈,并设计了相应的prompt,引导LLM根据反馈信息修改ASP程序。迭代次数和最大token长度是重要的超参数,需要根据具体任务进行调整。损失函数未知,但目标是使生成的ASP程序能够得到正确的稳定模型。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,LLM+ASP框架在六个不同的基准测试中表现出色,尤其是在非单调推理任务上,明显优于基于SMT的替代方案。自校正机制是性能提升的关键驱动力,能够有效地取代手工制作领域知识的需求。此外,研究发现紧凑的上下文参考指南优于冗长的文档,揭示了“上下文腐烂”现象。

🎯 应用场景

该研究成果可应用于常识推理、法律推理、医疗诊断等领域。例如,在法律推理中,可以利用LLM+ASP框架处理包含法律条文和案例判例的复杂推理问题。在医疗诊断中,可以利用该框架处理包含医学知识和患者病史的推理问题。该研究有助于提高人工智能系统的推理能力和可靠性,促进人工智能在各个领域的应用。

📄 摘要(原文)

Recent large language models (LLMs) have achieved impressive reasoning milestones but continue to struggle with high computational costs, logical inconsistencies, and sharp performance degradation on high-complexity problems. While neuro-symbolic methods attempt to mitigate these issues by coupling LLMs with symbolic reasoners, existing approaches typically rely on monotonic logics (e.g., SMT) that cannot represent defeasible reasoning -- essential components of human cognition. We present "LLM+ASP," a framework that translates natural language into Answer Set Programming (ASP), a nonmonotonic formalism based on stable model semantics. Unlike prior "LLM+ASP" approaches that require manually authored knowledge modules, domain-specific prompts, or evaluation restricted to single problem classes, our framework operates without any per-task engineering and applies uniformly across diverse reasoning tasks. Our system utilizes an automated self-correction loop where structured feedback from the ASP solver enables iterative refinement. Evaluating across six diverse benchmarks, we demonstrate that: (1) stable model semantics allow LLMs to naturally express default rules and exceptions, outperforming SMT-based alternatives by significant margins on nonmonotonic tasks; (2) iterative self-correction is the primary driver of performance, effectively replacing the need for handcrafted domain knowledge; (3) compact in-context reference guides substantially outperform verbose documentation, revealing a "context rot" phenomenon where excessive context hinders constraint adherence.