FLARE: Faithful Logic-Aided Reasoning and Exploration

📄 arXiv: 2410.11900v5 📥 PDF

作者: Erik Arakelyan, Pasquale Minervini, Pat Verga, Patrick Lewis, Isabelle Augenstein

分类: cs.AI, cs.CL, cs.LG, cs.LO

发布日期: 2024-10-14 (更新: 2025-09-19)

备注: Published at EMNLP 2025


💡 一句话要点

提出FLARE以解决大型语言模型推理过程的可信性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 逻辑推理 神经符号方法 多跳搜索 任务分解 可解释性 问答系统

📋 核心要点

  1. 现有方法在生成与推理链一致的输出时存在困难,尤其是在面对模糊或复杂任务时。
  2. FLARE通过将LLM与逻辑编程相结合,使用任务分解和多跳搜索来增强推理的可信性和可解释性。
  3. 在9个推理基准测试中,FLARE在7个领域达到了最先进的结果,且模型的可信度与性能呈正相关。

📝 摘要(中文)

现代问答和推理方法通常依赖于大型语言模型(LLMs)和提示技术,如链式思维(CoT),但这些方法在生成与推理链一致的输出时存在困难。另一方面,神经符号方法如F-CoT虽然提高了可信度,但在处理模糊或难以严格形式化的任务时表现不佳。本文提出了FLARE(可信逻辑辅助推理与探索),一种新颖的可解释方法,通过任务分解来遍历问题空间,利用LLM规划解决方案,将查询软形式化为事实和谓词,并通过对定义空间的全面多跳搜索来模拟代码执行。我们的研究在9个多样化推理基准中取得了7个领域的最先进结果,表明模型的可信度与整体性能正相关,并展示了FLARE能够在多跳搜索中精确定位导致正确答案的关键因素。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在推理过程中生成输出时的可信性问题,尤其是在处理复杂和模糊任务时现有方法的不足。

核心思路:FLARE的核心思路是结合LLM与逻辑编程,通过任务分解和多跳搜索来增强推理过程的可信性,确保生成的输出与推理链一致。

技术框架:FLARE的整体架构包括三个主要模块:首先,利用LLM规划解决方案;其次,将查询软形式化为事实和谓词;最后,通过全面的多跳搜索模拟代码执行,分析推理过程。

关键创新:FLARE的主要创新在于其无需依赖外部求解器即可计算推理过程的可信度,并能够分析多跳搜索的每一步,显著提高了推理的可解释性。

关键设计:在设计中,FLARE采用了特定的逻辑编程代码结构,设置了适当的参数以优化多跳搜索的效率,并设计了损失函数以确保生成的输出与推理链的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FLARE在9个多样化的推理基准中取得了7个领域的最先进结果,显示出其在推理任务中的优越性能。实验结果表明,模型的可信度与整体性能之间存在正相关关系,进一步验证了FLARE在多跳搜索中能够有效定位导致正确答案的关键因素。

🎯 应用场景

FLARE的研究成果在多个领域具有广泛的应用潜力,包括智能问答系统、自动推理工具和复杂决策支持系统。通过提高推理过程的可信性和可解释性,FLARE能够帮助用户更好地理解模型的决策过程,从而在实际应用中提升信任度和有效性。

📄 摘要(原文)

Modern Question Answering (QA) and Reasoning approaches based on Large Language Models (LLMs) commonly use prompting techniques, such as Chain-of-Thought (CoT), assuming the resulting generation will have a more granular exploration and reasoning over the question space and scope. However, such methods struggle with generating outputs that are faithful to the intermediate chain of reasoning produced by the model. On the other end of the spectrum, neuro-symbolic methods such as Faithful CoT (F-CoT) propose to combine LLMs with external symbolic solvers. While such approaches boast a high degree of faithfulness, they usually require a model trained for code generation and struggle with tasks that are ambiguous or hard to formalise strictly. We introduce $\textbf{F}$aithful $\textbf{L}$ogic-$\textbf{A}$ided $\textbf{R}$easoning and $\textbf{E}$xploration ($\textbf{FLARE}$), a novel interpretable approach for traversing the problem space using task decompositions. We use the LLM to plan a solution, soft-formalise the query into facts and predicates using a logic programming code and simulate that code execution using an exhaustive multi-hop search over the defined space. Our method allows us to compute the faithfulness of the reasoning process w.r.t. the generated code and analyse the steps of the multi-hop search without relying on external solvers. Our methods achieve SOTA results on $\mathbf{7}$ out of $\mathbf{9}$ diverse reasoning benchmarks. We also show that model faithfulness positively correlates with overall performance and further demonstrate that $\textbf{FLARE}$ allows pinpointing the decisive factors sufficient for and leading to the correct answer with optimal reasoning during the multi-hop search.