Route Before Retrieve: Activating Latent Routing Abilities of LLMs for RAG vs. Long-Context Selection

作者: Yiwen Chen, Kuan Li, Fuzhen Zhuang, Deqing Wang, Zhao Zhang, Liwen Zhang, Yong Jiang, Shuai Wang, Minhao Cheng

分类: cs.CL

发布日期: 2026-05-11

💡 一句话要点

提出Pre-Route框架，利用LLM的潜在路由能力，优化RAG与长文本选择策略。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 长上下文学习 路由选择 大语言模型 知识蒸馏 任务分析 元数据驱动

📋 核心要点

现有方法在RAG和长文本处理间选择时被动低效，缺乏可解释性，难以兼顾效率与全局推理。
Pre-Route框架通过分析文档元数据，主动预测信息需求，做出可解释且具成本效益的路由决策。
实验表明，LLM具备潜在路由能力，结构化提示可有效激发，且可将该能力蒸馏至小模型。

📝 摘要（中文）

大型语言模型（LLMs）的最新进展已将上下文窗口扩展到超过128K tokens，从而实现了长文档理解和多源推理。然而，一个关键的挑战在于选择检索增强生成（RAG）和长上下文（LC）策略：RAG高效但受限于检索质量，而LC支持全局推理，但成本更高且对位置敏感。现有的方法，如Self-Route，采用从RAG到LC的失败驱动回退，但仍然是被动的、低效的且难以解释。我们提出了Pre-Route，一种主动路由框架，在回答之前执行结构化推理。通过使用轻量级元数据（例如，文档类型、长度、初始片段），Pre-Route能够进行任务分析、覆盖估计和信息需求预测，从而产生可解释且具有成本效益的路由决策。我们的研究表明了三个关键发现：（i）LLMs具有潜在的路由能力，可以通过指导可靠地激发，从而使单样本性能接近多样本（Best-of-N）的结果；（ii）线性探针表明，结构化提示可以锐化表示空间中“最佳路由维度”的可分离性；以及（iii）蒸馏将这种推理结构转移到更小的模型，以便进行轻量级部署。在LaRA（领域内）和LongBench-v2（OOD）上的实验证实，Pre-Route优于Always-RAG、Always-LC和Self-Route基线，实现了卓越的总体成本效益。

🔬 方法详解

问题定义：论文旨在解决在问答系统中，如何高效且智能地选择使用检索增强生成（RAG）或长上下文（LC）策略的问题。现有方法，如Always-RAG、Always-LC和Self-Route，要么效率低下（Always-LC），要么受限于检索质量（Always-RAG），要么是被动地从RAG回退到LC（Self-Route），缺乏主动性和可解释性。

核心思路：Pre-Route的核心思路是在问答之前进行“预路由”，即利用LLM的潜在路由能力，根据轻量级的文档元数据（如文档类型、长度、初始片段）进行结构化推理，主动预测最佳的路由策略（RAG或LC）。这样做的目的是在保证回答质量的同时，最大限度地降低计算成本。

技术框架：Pre-Route框架包含以下主要阶段： 1. 元数据提取： 从文档中提取轻量级的元数据，如文档类型、长度、初始片段等。 2. 任务分析： 利用LLM根据元数据进行任务分析，包括确定问题的类型、所需的知识范围等。 3. 覆盖估计： LLM评估RAG或LC策略是否能够覆盖所需的知识范围。 4. 信息需求预测： LLM预测问题的信息需求，例如需要哪些类型的文档、需要多少上下文信息等。 5. 路由决策： 根据任务分析、覆盖估计和信息需求预测的结果，LLM做出路由决策，选择RAG或LC策略。 6. 回答生成： 根据选择的路由策略，生成最终答案。

关键创新：Pre-Route的最重要的技术创新点在于它是一种主动的路由框架，而不是被动的回退策略。它利用LLM的潜在路由能力，通过结构化推理，在回答问题之前做出明智的路由决策。这与现有方法有本质区别，现有方法通常是在回答问题之后，根据结果的好坏来决定是否切换路由策略。

关键设计：Pre-Route的关键设计包括： 1. 结构化提示： 使用精心设计的结构化提示，引导LLM进行任务分析、覆盖估计和信息需求预测。 2. 线性探针： 使用线性探针来分析LLM的表示空间，发现“最佳路由维度”。 3. 蒸馏训练： 使用蒸馏训练将LLM的路由能力转移到更小的模型，以便进行轻量级部署。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Pre-Route在LaRA和LongBench-v2数据集上均优于Always-RAG、Always-LC和Self-Route等基线方法。尤其值得注意的是，Pre-Route仅使用单样本进行路由决策，其性能就接近于多样本（Best-of-N）的结果，展示了其高效的路由能力。实验还通过线性探针验证了结构化提示可以有效提高LLM表示空间中“最佳路由维度”的可分离性。

🎯 应用场景

Pre-Route框架可广泛应用于各种需要RAG和长文本处理的问答系统，例如：智能客服、文档检索、知识库问答等。通过提高效率和准确性，该研究可显著提升用户体验，降低运营成本。未来，Pre-Route还可扩展到处理更复杂的多源信息集成和推理任务。

📄 摘要（原文）

Recent advances in large language models (LLMs) have expanded the context window to beyond 128K tokens, enabling long-document understanding and multi-source reasoning. A key challenge, however, lies in choosing between retrieval-augmented generation (RAG) and long-context (LC) strategies: RAG is efficient but constrained by retrieval quality, while LC supports global reasoning at higher cost and with position sensitivity. Existing methods such as Self-Route adopt failure-driven fallback from RAG to LC, but remain passive, inefficient, and hard to interpret. We propose Pre-Route, a proactive routing framework that performs structured reasoning before answering. Using lightweight metadata (e.g., document type, length, initial snippet), Pre-Route enables task analysis, coverage estimation, and information-need prediction, producing explainable and cost-efficient routing decisions. Our study shows three key findings: (i) LLMs possess latent routing ability that can be reliably elicited with guidelines, allowing single-sample performance to approach that of multi-sample (Best-of-N) results; (ii) linear probes reveal that structured prompts sharpen the separability of the "optimal routing dimension" in representation space; and (iii) distillation transfers this reasoning structure to smaller models for lightweight deployment. Experiments on LaRA (in-domain) and LongBench-v2 (OOD) confirm that Pre-Route outperforms Always-RAG, Always-LC, and Self-Route baselines, achieving superior overall cost-effectiveness.

Route Before Retrieve: Activating Latent Routing Abilities of LLMs for RAG vs. Long-Context Selection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理