Adaptive Retrieval helps Reasoning in LLMs -- but mostly if it's not used
作者: Srijan Shakya, Anamaria-Roberta Hartl, Sepp Hochreiter, Korbinian Pöppel
分类: cs.LG
发布日期: 2026-02-06
备注: Eurips Workshop on Principles of Generative Modeling (PriGM)
💡 一句话要点
自适应检索增强LLM推理能力,但“不用”比“用”效果更好
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 自适应检索 推理能力 元认知 知识库
📋 核心要点
- 现有LLM在复杂推理任务中受限于静态知识,易产生幻觉,特定领域表现差。
- 提出自适应检索增强架构,LLM agent动态决定何时查询外部知识库。
- 实验表明,自适应检索中“不用”检索的traces比CoT效果更好,检索决策是关键信号。
📝 摘要(中文)
大型语言模型(LLMs)由于其静态的参数化知识,在复杂的推理任务中常常表现不佳,导致幻觉和在数学等专业领域表现不佳。本文探讨了增强生成模型的一个基本原则:将检索视为一种动态的上下文学习形式。我们测试了一种自适应检索增强架构,其中LLM agent主动决定何时在其推理过程中查询外部知识库。我们将这种自适应策略与标准的Chain-of-Thought (CoT)基线和静态检索方法在GSM8K和MATH-500基准上进行了比较。虽然我们的实验表明静态检索不如CoT,但自适应检索显示出有趣的行为:包含检索结果的traces比CoT表现略差,而不包含检索的traces实际上比CoT表现更好。这表明:(a)检索很少能帮助推理(我们展示了一些反例,例如使用有用的定理),以及(b)主动不使用检索表明了良好的模型性能。此外,我们发现模型根据问题的难度来调整其检索频率,这进一步表明检索的决定是一个关键的元认知信号。Agent自我评估其知识并选择性地与外部信息交互的能力代表了构建更强大和可靠的生成模型的关键原则。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在复杂推理任务中,由于依赖静态参数知识而表现出的不足,尤其是在需要专业知识的领域,例如数学问题求解。现有方法,如静态检索增强,并不能有效提升LLM的推理能力,甚至可能降低性能。
核心思路:论文的核心思路是让LLM具备“元认知”能力,即能够自我评估其知识储备,并根据问题难度自适应地决定是否需要从外部知识库检索信息。这种自适应检索策略旨在提高LLM的推理效率和准确性。
技术框架:整体架构包含一个LLM agent和一个外部知识库。Agent在推理过程中,首先评估自身是否具备解决问题的知识,如果认为需要外部信息,则向知识库发起查询。查询结果会被整合到上下文信息中,辅助后续的推理步骤。整个过程是动态的,agent可以根据中间结果调整检索策略。
关键创新:最重要的创新点在于LLM agent具备了自适应检索的能力。与静态检索方法不同,agent可以根据自身状态和问题难度,动态地决定是否需要检索外部知识。这种自适应性使得LLM能够更有效地利用外部信息,避免不必要的检索开销。
关键设计:论文中,agent的检索决策是通过一个分类器实现的,该分类器判断当前问题是否需要检索。分类器的训练数据包括问题描述、中间推理步骤以及最终答案。损失函数的设计旨在鼓励agent在必要时进行检索,并在自身知识足以解决问题时避免检索。
📊 实验亮点
实验结果表明,静态检索不如CoT,而自适应检索中,不包含检索的traces比CoT表现更好。这表明检索并非总是有效,且主动避免检索是模型良好性能的体现。模型还会根据问题难度调整检索频率,验证了检索决策的重要性。
🎯 应用场景
该研究成果可应用于智能问答系统、教育辅导机器人、科研助手等领域。通过赋予LLM自适应检索能力,可以显著提升其在专业领域的推理能力和问题解决能力,使其能够更好地服务于各行各业。
📄 摘要(原文)
Large Language Models (LLMs) often falter in complex reasoning tasks due to their static, parametric knowledge, leading to hallucinations and poor performance in specialized domains like mathematics. This work explores a fundamental principle for enhancing generative models: treating retrieval as a form of dynamic in-context learning. We test an adaptive retrieval-augmented architecture where an LLM agent actively decides when to query an external knowledge base during its reasoning process. We compare this adaptive strategy against a standard Chain-of-Thought (CoT) baseline and a static retrieval approach on the GSM8K and MATH-500 benchmarks. Although our experiments show that static retrieval is inferior to CoT, the adaptive retrieval shows interesting behavior: While traces including retrieved results show slightly worse performance compared to CoT, traces that do not include retrieval actually perform better compared to CoT. This suggests that: (a) retrieval only rarely helps reasoning (we show a few counterexamples, e.g. using useful theorems) and (b) actively not using retrieval is indicative of good model performance. Furthermore, we find that the model scales its retrieval frequency with the difficulty of the problem, reinforcing that the decision to retrieve is a crucial metacognitive signal. The agent's ability to self-assess its knowledge and selectively engage with external information represents a key principle for building more robust and reliable generative models.