RARE: Retrieval-Augmented Reasoning Enhancement for Large Language Models

作者: Hieu Tran, Zonghai Yao, Junda Wang, Yifan Zhang, Zhichao Yang, Hong Yu

分类: cs.CL

发布日期: 2024-12-03 (更新: 2025-06-02)

备注: Proceedings of ACL 2025 (main track)

💡 一句话要点

RARE：检索增强推理提升大语言模型常识与医学推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强 推理增强 大型语言模型 蒙特卡洛树搜索 知识密集型任务

📋 核心要点

现有LLM在知识密集型推理任务中，面临事实性错误和逻辑不一致的挑战，影响了其可靠性。
RARE通过检索增强MCTS框架，利用外部知识来指导推理过程，提升LLM的事实性和推理准确性。
实验表明，RARE显著提升了LLaMA 3.1的性能，使其在常识和医学推理任务中可与GPT-4等模型竞争。

📝 摘要（中文）

本研究提出了检索增强推理增强（RARE），它是对互推理框架（rStar）的通用扩展，旨在提高大型语言模型（LLM）在复杂、知识密集型任务（如常识和医学推理）中的推理准确性和事实完整性。RARE在蒙特卡洛树搜索（MCTS）框架中引入了两个创新动作：A6，它基于初始问题陈述生成搜索查询，使用这些查询执行信息检索，并使用检索到的数据增强推理以形成最终答案；以及A7，它专门利用信息检索来生成子问题，并使用相关的上下文信息重新回答这些子问题。此外，提出了一个检索增强的事实性评分器来取代原始鉴别器，优先考虑满足高标准事实性的推理路径。使用LLaMA 3.1的实验结果表明，RARE使开源LLM能够实现与GPT-4和GPT-4o等顶级开源模型相媲美的性能。这项研究将RARE确立为一种可扩展的解决方案，用于改进逻辑连贯性和事实完整性至关重要的领域中的LLM。

🔬 方法详解

问题定义：现有的大型语言模型在处理需要大量知识的复杂推理任务时，容易出现事实错误和逻辑不一致的问题。传统的推理方法往往依赖于模型自身的参数知识，缺乏外部知识的补充，导致推理结果的可靠性降低。因此，如何有效地利用外部知识来增强LLM的推理能力，提高其事实性和准确性，是一个亟待解决的问题。

核心思路：RARE的核心思路是通过检索增强的方式，将外部知识融入到LLM的推理过程中。具体来说，RARE在蒙特卡洛树搜索（MCTS）框架中引入了两个新的动作：A6和A7。A6动作负责根据初始问题生成搜索查询，并利用这些查询从外部知识库中检索相关信息，然后将检索到的信息用于增强推理过程，最终生成答案。A7动作则专注于对生成的子问题进行信息检索，并使用检索到的上下文信息重新回答这些子问题。通过这种方式，RARE能够有效地利用外部知识来指导推理过程，从而提高推理的准确性和事实性。

技术框架：RARE建立在互推理框架（rStar）的基础上，并对其进行了扩展。整体框架仍然采用蒙特卡洛树搜索（MCTS）算法。主要模块包括：问题分解模块（生成子问题）、检索模块（A6和A7动作）、推理模块（利用LLM进行推理）、事实性评分模块（Retrieval-Augmented Factuality Scorer）。MCTS算法通过不断地探索和利用，选择最优的推理路径。

关键创新：RARE的关键创新在于引入了两个新的检索增强动作（A6和A7）以及检索增强的事实性评分器。A6和A7动作使得模型能够主动地从外部知识库中检索相关信息，并将其融入到推理过程中。检索增强的事实性评分器则用于评估推理路径的事实性，并优先选择满足高标准事实性的路径。这与传统的推理方法不同，后者通常只依赖于模型自身的参数知识，缺乏外部知识的补充。

关键设计：RARE的关键设计包括：1) 如何有效地生成搜索查询（A6动作）；2) 如何选择合适的外部知识库；3) 如何将检索到的信息有效地融入到推理过程中；4) 如何设计检索增强的事实性评分器。具体的技术细节包括：搜索查询的生成策略、知识库的选择标准、信息融合的方法以及事实性评分器的训练方式等。论文中可能涉及一些超参数的设置，例如MCTS的探索参数、检索结果的数量等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RARE能够显著提升LLaMA 3.1在常识和医学推理任务中的性能。例如，在某些基准测试中，RARE使LLaMA 3.1达到了与GPT-4和GPT-4o等顶级开源模型相媲美的水平。这表明RARE是一种有效的检索增强推理方法，能够充分利用外部知识来提高LLM的推理能力。

🎯 应用场景

RARE具有广泛的应用前景，尤其是在需要高准确性和事实性的领域，如医疗诊断、法律咨询、金融分析等。通过利用外部知识，RARE可以帮助LLM做出更可靠的决策，减少错误和偏差。未来，RARE可以进一步扩展到其他领域，并与其他技术相结合，例如知识图谱、自然语言理解等，以实现更强大的推理能力。

📄 摘要（原文）

This work introduces RARE (Retrieval-Augmented Reasoning Enhancement), a versatile extension to the mutual reasoning framework (rStar), aimed at enhancing reasoning accuracy and factual integrity across large language models (LLMs) for complex, knowledge-intensive tasks such as commonsense and medical reasoning. RARE incorporates two innovative actions within the Monte Carlo Tree Search (MCTS) framework: A6, which generates search queries based on the initial problem statement, performs information retrieval using those queries, and augments reasoning with the retrieved data to formulate the final answer; and A7, which leverages information retrieval specifically for generated sub-questions and re-answers these sub-questions with the relevant contextual information. Additionally, a Retrieval-Augmented Factuality Scorer is proposed to replace the original discriminator, prioritizing reasoning paths that meet high standards of factuality. Experimental results with LLaMA 3.1 show that RARE enables open-source LLMs to achieve competitive performance with top open-source models like GPT-4 and GPT-4o. This research establishes RARE as a scalable solution for improving LLMs in domains where logical coherence and factual integrity are critical.

RARE: Retrieval-Augmented Reasoning Enhancement for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理