LLM-Specific Utility: A New Perspective for Retrieval-Augmented Generation

📄 arXiv: 2510.11358v2 📥 PDF

作者: Hengran Zhang, Keping Bi, Jiafeng Guo, Jiaming Zhang, Shuaiqiang Wang, Dawei Yin, Xueqi Cheng

分类: cs.CL, cs.AI, cs.IR

发布日期: 2025-10-13 (更新: 2026-01-27)

备注: 13 pages, 9 figures


💡 一句话要点

提出LLM特定效用性,优化检索增强生成中模型定制化证据选择

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大型语言模型 LLM特定效用 证据选择 智能问答

📋 核心要点

  1. 现有RAG方法侧重主题相关性,忽略了不同LLM对检索证据的独特需求和利用能力差异。
  2. 论文形式化了LLM特定效用性,即提供证据后LLM性能提升,并构建了相应的评估基准。
  3. 实验表明,LLM特定效用证据不可转移,现有方法难以准确评估LLM特定效用,需定制化证据选择。

📝 摘要(中文)

检索增强生成(RAG)通常针对主题相关性进行优化,但其成功最终取决于检索到的段落对于大型语言模型(LLM)生成正确和完整答案是否有用。我们认为,这种效用通常是LLM特定的,而非通用的,因为不同模型在知识、推理和利用证据的能力上存在差异。我们将LLM特定效用形式化为:与不提供证据相比,提供段落时目标LLM的性能提升。为了系统地研究LLM特定效用,我们构建了一个LLM特定黄金效用段落的基准,针对四个LLM(Qwen3-8B/14B/32B和Llama3.1-8B),在三个QA数据集(Natural Questions, TriviaQA和MS MARCO-FQA)上进行评估。我们的分析表明,效用段落是模型依赖的且不可转移的:每个LLM在使用其自身的效用证据时表现最佳,而针对其他LLM优化的证据始终是次优的。人工标注的证据仍然是一个强大的通用基线,但不能完全满足单个LLM的效用需求。我们进一步引入了LLM特定效用判断任务,并发现现有的效用感知选择和评分方法主要捕获了模型无关的有用性,并且难以可靠地估计LLM特定的效用。总的来说,我们的发现突出了当前效用感知检索的局限性,并激发了为改进RAG而定制生成器的证据选择。

🔬 方法详解

问题定义:现有检索增强生成(RAG)系统主要关注检索到的文档与查询的相关性,而忽略了不同大型语言模型(LLM)在知识储备、推理能力和利用证据方式上的差异。因此,即使是相关性高的文档,对于不同的LLM,其效用也可能大相径庭。现有方法缺乏对LLM特定效用的有效评估和利用,导致RAG系统性能受限。

核心思路:论文的核心在于提出并形式化了“LLM特定效用”这一概念,即一个文档对于特定LLM的效用,定义为该LLM在提供该文档作为上下文的情况下,回答问题的性能提升。核心思路是,RAG系统应该根据目标LLM的特点,选择最能提升其性能的证据,而不是仅仅依赖于通用的相关性指标。

技术框架:论文构建了一个LLM特定效用评估基准,包含四个LLM(Qwen3-8B/14B/32B和Llama3.1-8B)和三个QA数据集(Natural Questions, TriviaQA, MS MARCO-FQA)。该基准包含针对每个LLM的“黄金效用段落”,这些段落是专门为提升该LLM在特定问题上的性能而选择的。论文还引入了LLM特定效用判断任务,用于评估现有方法在估计LLM特定效用方面的能力。

关键创新:最重要的创新点在于提出了LLM特定效用的概念,并证明了其重要性。论文通过实验表明,针对一个LLM优化的证据,对于其他LLM来说可能是次优的,甚至会降低性能。这挑战了传统的RAG方法,强调了为每个LLM定制证据选择的重要性。

关键设计:论文的关键设计包括:1) LLM特定效用的形式化定义,为后续研究提供了理论基础;2) LLM特定黄金效用段落基准的构建,为评估LLM特定效用提供了数据支持;3) LLM特定效用判断任务的引入,为评估现有方法在估计LLM特定效用方面的能力提供了手段。论文没有涉及具体的参数设置或网络结构,而是侧重于概念的提出和实验验证。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,针对特定LLM优化的证据,在其他LLM上的表现明显下降,验证了LLM特定效用的不可转移性。人工标注的证据虽然作为通用基线表现良好,但仍不如针对特定LLM选择的证据。现有utility-aware方法在预测LLM特定效用方面表现不佳,表明需要开发新的方法来更好地捕捉LLM的独特需求。

🎯 应用场景

该研究成果可应用于智能问答、对话系统、信息检索等领域。通过针对不同LLM定制化证据选择,可以显著提升RAG系统的性能和用户体验。未来,可以进一步探索如何自动学习LLM的效用偏好,实现更智能、更高效的证据检索和生成。

📄 摘要(原文)

Retrieval-augmented generation (RAG) is typically optimized for topical relevance, yet its success ultimately depends on whether retrieved passages are useful for a large language model (LLM) to generate correct and complete answers. We argue that such utility is often LLM-specific rather than universal, due to differences in models' knowledge, reasoning, and ability to leverage evidence. We formalize LLM-specific utility as the performance improvement of a target LLM when a passage is provided, compared to answering without evidence. To systematically study LLM-specific utility, we construct a benchmark of LLM-specific gold utilitarian passages for four LLMs (Qwen3-8B/14B/32B and Llama3.1-8B) on three QA datasets (Natural Questions, TriviaQA, and MS MARCO-FQA). Our analysis shows that utilitarian passages are model-dependent and non-transferable: each LLM performs best with its own utilitarian evidence, while evidence optimized for other LLMs is consistently suboptimal. Human-annotated evidence remains a strong general baseline but does not fully match individual LLM utility needs. We further introduce the LLM-specific utility judgment task and find that existing utility-aware selection and scoring methods largely capture model-agnostic usefulness and struggle to reliably estimate LLM-specific utility. Overall, our findings highlight the limitations of current utility-aware retrieval and motivate generator-tailored evidence selection for improving RAG.