Route Before Retrieve: Activating Latent Routing Abilities of LLMs for RAG vs. Long-Context Selection
作者: Yiwen Chen, Kuan Li, Fuzhen Zhuang, Deqing Wang, Zhao Zhang, Liwen Zhang, Yong Jiang, Shuai Wang, Minhao Cheng
分类: cs.CL
发布日期: 2026-05-11
💡 一句话要点
提出Pre-Route框架,利用LLM的潜在路由能力,优化RAG与长文本选择策略。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 长上下文学习 路由选择 大语言模型 知识蒸馏 任务分析 元数据驱动
📋 核心要点
- 现有方法在RAG和长文本处理间选择时被动低效,缺乏可解释性,难以兼顾效率与全局推理。
- Pre-Route框架通过分析文档元数据,主动预测信息需求,做出可解释且具成本效益的路由决策。
- 实验表明,LLM具备潜在路由能力,结构化提示可有效激发,且可将该能力蒸馏至小模型。
📝 摘要(中文)
大型语言模型(LLMs)的最新进展已将上下文窗口扩展到超过128K tokens,从而实现了长文档理解和多源推理。然而,一个关键的挑战在于选择检索增强生成(RAG)和长上下文(LC)策略:RAG高效但受限于检索质量,而LC支持全局推理,但成本更高且对位置敏感。现有的方法,如Self-Route,采用从RAG到LC的失败驱动回退,但仍然是被动的、低效的且难以解释。我们提出了Pre-Route,一种主动路由框架,在回答之前执行结构化推理。通过使用轻量级元数据(例如,文档类型、长度、初始片段),Pre-Route能够进行任务分析、覆盖估计和信息需求预测,从而产生可解释且具有成本效益的路由决策。我们的研究表明了三个关键发现:(i)LLMs具有潜在的路由能力,可以通过指导可靠地激发,从而使单样本性能接近多样本(Best-of-N)的结果;(ii)线性探针表明,结构化提示可以锐化表示空间中“最佳路由维度”的可分离性;以及(iii)蒸馏将这种推理结构转移到更小的模型,以便进行轻量级部署。在LaRA(领域内)和LongBench-v2(OOD)上的实验证实,Pre-Route优于Always-RAG、Always-LC和Self-Route基线,实现了卓越的总体成本效益。
🔬 方法详解
问题定义:论文旨在解决在问答系统中,如何高效且智能地选择使用检索增强生成(RAG)或长上下文(LC)策略的问题。现有方法,如Always-RAG、Always-LC和Self-Route,要么效率低下(Always-LC),要么受限于检索质量(Always-RAG),要么是被动地从RAG回退到LC(Self-Route),缺乏主动性和可解释性。
核心思路:Pre-Route的核心思路是在问答之前进行“预路由”,即利用LLM的潜在路由能力,根据轻量级的文档元数据(如文档类型、长度、初始片段)进行结构化推理,主动预测最佳的路由策略(RAG或LC)。这样做的目的是在保证回答质量的同时,最大限度地降低计算成本。
技术框架:Pre-Route框架包含以下主要阶段: 1. 元数据提取: 从文档中提取轻量级的元数据,如文档类型、长度、初始片段等。 2. 任务分析: 利用LLM根据元数据进行任务分析,包括确定问题的类型、所需的知识范围等。 3. 覆盖估计: LLM评估RAG或LC策略是否能够覆盖所需的知识范围。 4. 信息需求预测: LLM预测问题的信息需求,例如需要哪些类型的文档、需要多少上下文信息等。 5. 路由决策: 根据任务分析、覆盖估计和信息需求预测的结果,LLM做出路由决策,选择RAG或LC策略。 6. 回答生成: 根据选择的路由策略,生成最终答案。
关键创新:Pre-Route的最重要的技术创新点在于它是一种主动的路由框架,而不是被动的回退策略。它利用LLM的潜在路由能力,通过结构化推理,在回答问题之前做出明智的路由决策。这与现有方法有本质区别,现有方法通常是在回答问题之后,根据结果的好坏来决定是否切换路由策略。
关键设计:Pre-Route的关键设计包括: 1. 结构化提示: 使用精心设计的结构化提示,引导LLM进行任务分析、覆盖估计和信息需求预测。 2. 线性探针: 使用线性探针来分析LLM的表示空间,发现“最佳路由维度”。 3. 蒸馏训练: 使用蒸馏训练将LLM的路由能力转移到更小的模型,以便进行轻量级部署。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Pre-Route在LaRA和LongBench-v2数据集上均优于Always-RAG、Always-LC和Self-Route等基线方法。尤其值得注意的是,Pre-Route仅使用单样本进行路由决策,其性能就接近于多样本(Best-of-N)的结果,展示了其高效的路由能力。实验还通过线性探针验证了结构化提示可以有效提高LLM表示空间中“最佳路由维度”的可分离性。
🎯 应用场景
Pre-Route框架可广泛应用于各种需要RAG和长文本处理的问答系统,例如:智能客服、文档检索、知识库问答等。通过提高效率和准确性,该研究可显著提升用户体验,降低运营成本。未来,Pre-Route还可扩展到处理更复杂的多源信息集成和推理任务。
📄 摘要(原文)
Recent advances in large language models (LLMs) have expanded the context window to beyond 128K tokens, enabling long-document understanding and multi-source reasoning. A key challenge, however, lies in choosing between retrieval-augmented generation (RAG) and long-context (LC) strategies: RAG is efficient but constrained by retrieval quality, while LC supports global reasoning at higher cost and with position sensitivity. Existing methods such as Self-Route adopt failure-driven fallback from RAG to LC, but remain passive, inefficient, and hard to interpret. We propose Pre-Route, a proactive routing framework that performs structured reasoning before answering. Using lightweight metadata (e.g., document type, length, initial snippet), Pre-Route enables task analysis, coverage estimation, and information-need prediction, producing explainable and cost-efficient routing decisions. Our study shows three key findings: (i) LLMs possess latent routing ability that can be reliably elicited with guidelines, allowing single-sample performance to approach that of multi-sample (Best-of-N) results; (ii) linear probes reveal that structured prompts sharpen the separability of the "optimal routing dimension" in representation space; and (iii) distillation transfers this reasoning structure to smaller models for lightweight deployment. Experiments on LaRA (in-domain) and LongBench-v2 (OOD) confirm that Pre-Route outperforms Always-RAG, Always-LC, and Self-Route baselines, achieving superior overall cost-effectiveness.