Who Benefits from RAG? The Role of Exposure, Utility and Attribution Bias

📄 arXiv: 2603.24218v1 📥 PDF

作者: Mahdi Dehghan, Graham McDonald

分类: cs.IR, cs.AI

发布日期: 2026-03-25


💡 一句话要点

揭示RAG系统中群体公平性问题:探究暴露度、效用和归因偏差的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 RAG 公平性 群体公平性 暴露度 效用 归因偏差

📋 核心要点

  1. 现有RAG系统在公平性方面研究不足,缺乏对不同群体查询准确率差异的系统性分析。
  2. 该研究通过分析群体暴露度、效用和归因偏差,揭示了这些因素对RAG系统公平性的影响。
  3. 实验表明RAG系统可能加剧群体间准确率差异,并量化了关键因素与公平性指标的相关性。

📝 摘要(中文)

本文研究了检索增强生成(RAG)系统中存在的公平性问题,特别是查询群体公平性,即与特定群体相关的查询是否在RAG系统中获得更高的准确率或准确率提升。通过考察群体暴露度(检索集中各群体文档的比例)、群体效用(各群体文档对提高答案准确率的贡献程度)和群体归因(生成器对各群体文档的依赖程度)这三个关键因素,分析了它们对RAG公平性的影响。实验基于TREC 2022 Fair Ranking Track数据集,针对文章生成和标题生成两个任务,在四个公平性类别上评估了群体平均准确率和准确率提升的差异。结果表明,RAG系统存在查询群体公平性问题,并放大了不同群体查询之间平均准确率的差距。群体效用、暴露度和归因与群体平均准确率或准确率提升之间存在显著的正相关或负相关,突显了它们在公平RAG中的重要作用。

🔬 方法详解

问题定义:论文旨在解决RAG系统中存在的查询群体公平性问题。现有RAG系统虽然提高了准确率,但可能对某些特定群体相关的查询表现更好,导致不公平。现有的研究缺乏对这种群体差异的系统性分析和量化。

核心思路:论文的核心思路是将RAG系统的公平性问题分解为三个关键因素:群体暴露度、群体效用和群体归因。通过分析这三个因素与群体准确率之间的关系,来理解RAG系统中的公平性偏差。这种分解能够更细粒度地理解RAG系统中的公平性问题,并为后续的公平性改进提供指导。

技术框架:论文采用实验研究的方法,主要流程如下: 1. 数据集构建:基于TREC 2022 Fair Ranking Track数据集,针对文章生成和标题生成任务,构建包含不同公平性类别的数据集。 2. RAG系统搭建:搭建基于LLM的RAG系统,包括检索器和生成器两个模块。 3. 指标定义:定义群体暴露度、群体效用和群体归因等指标,用于量化不同群体在RAG系统中的表现。 4. 实验评估:针对不同公平性类别,评估RAG系统的群体平均准确率和准确率提升,并分析群体暴露度、群体效用和群体归因与这些指标之间的关系。

关键创新:论文的关键创新在于: 1. 提出查询群体公平性问题:明确指出RAG系统可能存在的公平性偏差,并将其定义为查询群体公平性问题。 2. 分解公平性影响因素:将RAG系统的公平性问题分解为群体暴露度、群体效用和群体归因三个关键因素,为后续分析提供了理论基础。 3. 量化分析:通过实验量化分析了这三个因素与群体准确率之间的关系,揭示了它们对RAG系统公平性的影响。

关键设计:论文的关键设计包括: 1. 公平性类别选择:选择TREC 2022 Fair Ranking Track数据集中的四个公平性类别,保证了实验的代表性。 2. 指标计算方法:设计了合理的指标计算方法,用于量化群体暴露度、群体效用和群体归因。 3. 统计分析方法:采用统计分析方法,分析了群体暴露度、群体效用和群体归因与群体准确率之间的相关性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RAG系统在某些公平性类别上放大了群体间的准确率差异。例如,某些群体的查询在RAG系统中的准确率提升幅度显著低于其他群体。此外,群体效用、暴露度和归因与群体平均准确率或准确率提升之间存在显著的相关性,表明这些因素对RAG系统的公平性具有重要影响。

🎯 应用场景

该研究成果可应用于提升RAG系统的公平性,尤其是在信息检索、问答系统等领域。通过优化检索策略、调整生成模型,可以减少群体间的准确率差异,避免对特定群体造成歧视。未来的研究可以进一步探索更有效的公平性干预方法,并将其应用于更广泛的RAG应用场景。

📄 摘要(原文)

Large Language Models (LLMs) enhanced with Retrieval-Augmented Generation (RAG) have achieved substantial improvements in accuracy by grounding their responses in external documents that are relevant to the user's query. However, relatively little work has investigated the impact of RAG in terms of fairness. Particularly, it is not yet known if queries that are associated with certain groups within a fairness category systematically receive higher accuracy, or accuracy improvements in RAG systems compared to LLM-only, a phenomenon we refer to as query group fairness. In this work, we conduct extensive experiments to investigate the impact of three key factors on query group fairness in RAG, namely: Group exposure, i.e., the proportion of documents from each group appearing in the retrieved set, determined by the retriever; Group utility, i.e., the degree to which documents from each group contribute to improving answer accuracy, capturing retriever-generator interactions; and Group attribution, i.e., the extent to which the generator relies on documents from each group when producing responses. We examine group-level average accuracy and accuracy improvements disparities across four fairness categories using three datasets derived from the TREC 2022 Fair Ranking Track for two tasks: article generation and title generation. Our findings show that RAG systems suffer from the query group fairness problem and amplify disparities in terms of average accuracy across queries from different groups, compared to an LLM-only setting. Moreover, group utility, exposure, and attribution can exhibit strong positive or negative correlations with average accuracy or accuracy improvements of queries from that group, highlighting their important role in fair RAG. Our data and code are publicly available from Github.