SkewRoute: Training-Free LLM Routing for Knowledge Graph Retrieval-Augmented Generation via Score Skewness of Retrieved Context

📄 arXiv: 2505.23841v2 📥 PDF

作者: Hairu Wang, Yuan Feng, Yukun Cao, Xike Xie, S Kevin Zhou

分类: cs.IR, cs.CL

发布日期: 2025-05-28 (更新: 2025-10-11)

🔗 代码/项目: GITHUB


💡 一句话要点

提出SkewRoute,一种免训练的LLM路由方法,用于知识图谱RAG,通过检索上下文的分数偏度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM路由 知识图谱 检索增强生成 RAG 分数偏度 免训练 推理成本

📋 核心要点

  1. 现有RAG系统因检索大量知识上下文导致LLM推理成本高昂,缺乏专门的RAG路由方法。
  2. SkewRoute利用检索评分器分数分布的偏度作为查询难度的指标,实现免训练的LLM路由。
  3. 实验表明,SkewRoute在路由有效性上提升超过3倍,运行时间减少到现有方法的0.001倍以下。

📝 摘要(中文)

大型语言模型(LLM)在许多任务中表现出色,但在部署期间通常会产生高昂的推理成本。为了减轻幻觉,许多系统使用知识图谱来增强检索增强生成(KG-RAG)。然而,大量检索到的知识上下文进一步增加了这些推理成本。一个有希望的解决方案是LLM路由,它将简单查询导向较小的LLM,将复杂查询导向较大的LLM。然而,目前没有专门针对RAG的路由方法,并且由于需要大量的训练数据,现有的基于训练的路由器面临着扩展到该领域的挑战。我们观察到,检索评分器产生的分数分布与查询难度密切相关。基于此,我们提出了一种极其简单但有效的路由框架,这是第一个专门为KG-RAG设计的框架,它以即插即用的方式有效地平衡了性能和成本。与现有方法相比,它提供了超过3倍的路由有效性,同时将运行时间减少到小于0.001倍。我们的代码可在https://github.com/hrwang00/SkewRoute获得。

🔬 方法详解

问题定义:现有基于知识图谱的检索增强生成(KG-RAG)系统,为了减少LLM的幻觉,通常会检索大量的知识上下文。然而,这导致了LLM推理成本的显著增加。现有的LLM路由方法,要么不是专门为RAG设计的,要么需要大量的训练数据,难以扩展到KG-RAG领域。因此,如何在KG-RAG系统中,在保证性能的同时,降低LLM的推理成本,是一个亟待解决的问题。

核心思路:论文的核心思路是观察到检索评分器产生的分数分布与查询难度密切相关。具体来说,对于简单的查询,检索到的上下文的分数分布通常比较集中,偏度较低;而对于复杂的查询,分数分布则比较分散,偏度较高。因此,可以通过分析检索分数的偏度,来判断查询的难度,从而决定将查询路由到较小或较大的LLM。

技术框架:SkewRoute的整体框架非常简单,主要包含以下几个步骤:1) 使用现有的KG-RAG系统进行检索,获得检索到的上下文及其对应的分数;2) 计算检索分数的偏度;3) 根据偏度值,将查询路由到合适的LLM。具体来说,可以设置一个偏度阈值,如果偏度低于该阈值,则将查询路由到较小的LLM,否则路由到较大的LLM。

关键创新:SkewRoute的关键创新在于提出了利用检索分数的偏度作为查询难度指标的思想。与现有的基于训练的路由方法相比,SkewRoute无需训练,具有即插即用的特点,可以方便地集成到现有的KG-RAG系统中。此外,SkewRoute的计算复杂度非常低,几乎不增加额外的开销。

关键设计:SkewRoute的关键设计在于偏度阈值的选择。阈值的选择会直接影响路由的性能。如果阈值设置过高,则大部分查询都会被路由到较小的LLM,可能导致性能下降;如果阈值设置过低,则大部分查询都会被路由到较大的LLM,无法有效降低推理成本。论文中可能探讨了如何根据具体的应用场景和LLM的性能特点,来选择合适的偏度阈值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SkewRoute在KG-RAG系统中实现了显著的性能提升。与现有的路由方法相比,SkewRoute在路由有效性上提升超过3倍,同时将运行时间减少到小于0.001倍。这意味着SkewRoute可以在保证性能的同时,大幅降低LLM的推理成本,从而提高系统的整体效率。

🎯 应用场景

SkewRoute可广泛应用于各种需要知识图谱增强的LLM应用场景,例如问答系统、对话系统、信息检索等。通过降低LLM的推理成本,可以提高系统的响应速度和可扩展性,使其能够处理更大规模的用户请求。此外,SkewRoute的免训练特性使其易于部署和维护,降低了系统的开发成本。

📄 摘要(原文)

Large language models excel at many tasks but often incur high inference costs during deployment. To mitigate hallucination, many systems use a knowledge graph to enhance retrieval-augmented generation (KG-RAG). However, the large amount of retrieved knowledge contexts increase these inference costs further. A promising solution to balance performance and cost is LLM routing, which directs simple queries to smaller LLMs and complex ones to larger LLMs. However, no dedicated routing methods currently exist for RAG, and existing training-based routers face challenges scaling to this domain due to the need for extensive training data. We observe that the score distributions produced by the retrieval scorer strongly correlate with query difficulty. Based on this, we propose an extremely simple yet effective routing framework, the first specifically designed for KG-RAG that efficiently balances performance and cost in a plug-and-play manner. It delivers over 3x higher routing effectiveness while reducing runtime to less than 0.001x compared to existing methods. Our code is available at https://github.com/hrwang00/SkewRoute.