RARE: Retrieval-Augmented Reasoning Modeling

📄 arXiv: 2503.23513v2 📥 PDF

作者: Zhengren Wang, Jiayang Yu, Dongsheng Ma, Zhe Chen, Yu Wang, Zhiyu Li, Feiyu Xiong, Yanfeng Wang, Weinan E, Linpeng Tang, Wentao Zhang

分类: cs.CL

发布日期: 2025-03-30 (更新: 2025-05-17)

备注: Repo: https://github.com/Open-DataFlow/RARE


💡 一句话要点

RARE:提出检索增强推理建模,解决LLM领域知识幻觉和推理能力不足问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强学习 推理建模 知识幻觉 领域特定智能 大型语言模型 布鲁姆分类法 掩码损失

📋 核心要点

  1. 现有LLM在领域特定任务中面临知识幻觉和推理能力不足的挑战,尤其是在参数预算受限的情况下。
  2. RARE通过解耦知识存储和推理优化,利用外部可检索知识源,并内化领域特定推理模式来解决上述问题。
  3. 实验表明,轻量级RARE训练的模型性能显著提升,超越了检索增强的GPT-4和DeepSeek-R1等模型。

📝 摘要(中文)

领域特定智能需要专业的知识和复杂的推理能力来解决问题,这对大型语言模型(LLM)提出了重大挑战,因为它们在参数预算有限的情况下,容易出现知识幻觉和推理能力不足的问题。受到教育理论中布鲁姆分类法的启发,我们提出了一种新的范式:检索增强推理建模(RARE),它将知识存储与推理优化解耦。RARE将领域知识外部化到可检索的来源,并在训练期间内化领域特定的推理模式。具体来说,通过将检索到的知识注入到带有掩码损失的训练提示中,RARE将学习目标从死记硬背转变为情境化的推理。它使模型能够绕过参数密集型的记忆,并优先发展更高阶的认知过程。大量的实验表明,轻量级的RARE训练模型(例如,Llama-3.1-8B)可以达到最先进的性能,超过了检索增强的GPT-4和DeepSeek-R1,准确率提高了约20%。RARE建立了一种范式转变,即可维护的外部知识库与紧凑的、推理优化的模型协同工作,共同推动更具可扩展性的领域特定智能。

🔬 方法详解

问题定义:大型语言模型(LLM)在处理领域特定任务时,常常面临知识幻觉的问题,即生成不准确或不存在的信息。同时,由于参数规模的限制,LLM的推理能力也受到限制,难以进行复杂的逻辑推理和问题求解。现有的方法,如简单地增加模型参数或进行微调,并不能有效解决这些问题,反而会增加计算成本和维护难度。

核心思路:RARE的核心思路是将知识存储和推理优化解耦。具体来说,RARE将领域知识存储在外部可检索的知识库中,而不是让模型直接记忆。在训练过程中,模型通过检索相关的知识片段,并结合上下文进行推理。这样,模型可以将重点放在学习推理模式上,而不是记忆大量的知识。这种方法借鉴了布鲁姆分类法的思想,强调更高阶的认知过程。

技术框架:RARE的整体框架包括以下几个主要模块:1) 知识库:存储领域相关的知识片段。2) 检索模块:根据输入的问题或上下文,从知识库中检索相关的知识片段。3) 推理模块:接收输入的问题和检索到的知识片段,进行推理并生成答案。在训练过程中,RARE使用掩码损失函数,鼓励模型利用检索到的知识进行推理,而不是依赖自身的记忆。

关键创新:RARE最重要的创新点在于将知识存储和推理优化解耦。与传统的端到端训练方法不同,RARE允许模型专注于学习推理模式,而不是记忆大量的知识。这种方法可以显著减少模型的参数规模,并提高模型的泛化能力。此外,RARE还引入了掩码损失函数,鼓励模型利用检索到的知识进行推理。

关键设计:RARE的关键设计包括:1) 知识库的构建:需要选择合适的知识表示方法和存储结构,以便高效地检索相关的知识片段。2) 检索模块的设计:需要选择合适的检索算法和相似度度量方法,以便准确地检索相关的知识片段。3) 掩码损失函数的设计:需要选择合适的掩码策略和损失函数,以便有效地鼓励模型利用检索到的知识进行推理。论文中使用了Llama-3.1-8B作为基础模型,并针对特定领域的数据集进行了训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RARE训练的轻量级模型(例如,Llama-3.1-8B)在多个领域特定任务上取得了最先进的性能,超过了检索增强的GPT-4和DeepSeek-R1等大型模型,准确率提高了约20%。这表明RARE可以有效地提高模型的推理能力和泛化能力,同时降低模型的参数规模和计算成本。

🎯 应用场景

RARE具有广泛的应用前景,可以应用于各种需要领域特定知识和复杂推理能力的场景,例如:医疗诊断、金融分析、法律咨询、智能客服等。通过将领域知识存储在外部知识库中,并利用轻量级的推理模型,RARE可以构建更具可扩展性和可维护性的领域特定智能系统。未来,RARE还可以与其他技术相结合,例如:知识图谱、自然语言生成等,以进一步提高系统的性能和功能。

📄 摘要(原文)

Domain-specific intelligence demands specialized knowledge and sophisticated reasoning for problem-solving, posing significant challenges for large language models (LLMs) that struggle with knowledge hallucination and inadequate reasoning capabilities under constrained parameter budgets. Inspired by Bloom's Taxonomy in educational theory, we propose Retrieval-Augmented Reasoning Modeling (RARE), a novel paradigm that decouples knowledge storage from reasoning optimization. RARE externalizes domain knowledge to retrievable sources and internalizes domain-specific reasoning patterns during training. Specifically, by injecting retrieved knowledge into training prompts with masked losses, RARE transforms learning objectives from rote memorization to contextualized reasoning. It enables models to bypass parameter-intensive memorization and prioritize the development of higher-order cognitive processes. Extensive experiments demonstrate that lightweight RARE-trained models (e.g., Llama-3.1-8B) could achieve state-of-the-art performance, surpassing retrieval-augmented GPT-4 and DeepSeek-R1 up to approximately 20\% accuracy. RARE establishes a paradigm shift where maintainable external knowledge bases synergize with compact, reasoning-optimized models, collectively driving more scalable domain-specific intelligence.