Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration

📄 arXiv: 2405.16546v2 📥 PDF

作者: Sunhao Dai, Weihao Liu, Yuqi Zhou, Liang Pang, Rongju Ruan, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen

分类: cs.IR, cs.CL

发布日期: 2024-05-26 (更新: 2024-07-02)

备注: Accepted by Findings of ACL 2024; Datasets Link: https://huggingface.co/IR-Cocktail

🔗 代码/项目: GITHUB


💡 一句话要点

提出Cocktail,一个综合信息检索基准,集成LLM生成的文档,用于评估混合数据源下的检索模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 信息检索 大型语言模型 人工智能生成内容 基准测试 神经检索模型 数据偏差 混合数据源

📋 核心要点

  1. 现有信息检索系统面临AIGC内容激增的挑战,缺乏专门的基准来评估模型在混合数据源下的性能。
  2. Cocktail基准通过集成人工撰写和LLM生成的内容,构建了包含16个数据集的综合评估平台。
  3. 实验结果揭示了神经检索模型在排序性能和来源偏差之间的权衡,为未来IR系统设计提供了指导。

📝 摘要(中文)

随着大型语言模型(LLMs)的普及,互联网上人工智能生成内容(AIGC)激增,信息检索(IR)系统的数据来源从纯人工撰写转变为人工与LLM生成内容共存。AIGC激增对IR系统的影响仍然是一个开放性问题,主要挑战在于缺乏专门的基准供研究人员使用。本文提出了Cocktail,这是一个综合基准,专门用于评估LLM时代混合数据源环境下的IR模型。Cocktail包含16个不同的数据集,涵盖各种文本检索任务和领域,混合了人工撰写和LLM生成的内容。此外,为了避免LLM中先前包含的数据集信息可能造成的偏差,我们还引入了一个最新的数据集,名为NQ-UTD,其查询源自最近发生的事件。通过进行1000多次实验,评估最先进的检索模型在Cocktail基准数据集上的表现,我们发现神经检索模型在排序性能和来源偏差之间存在明显的权衡,突出了在设计未来IR系统时需要采取平衡的方法。我们希望Cocktail能够成为LLM时代IR研究的基础资源,所有数据和代码均可在https://github.com/KID-22/Cocktail上公开获取。

🔬 方法详解

问题定义:论文旨在解决信息检索系统在面对大规模LLM生成内容(AIGC)与人工撰写内容混合的数据环境下的性能评估问题。现有信息检索基准主要针对人工撰写内容,无法有效评估模型在AIGC影响下的表现,并且可能存在LLM训练数据泄露导致的偏差。

核心思路:论文的核心思路是构建一个包含多样化数据集的综合性基准测试平台,该平台既包含人工撰写的内容,也包含LLM生成的内容,从而能够更全面地评估信息检索模型在真实场景下的性能。同时,为了避免LLM的潜在偏差,引入了基于最新事件的NQ-UTD数据集。

技术框架:Cocktail基准测试平台包含16个不同的数据集,涵盖各种文本检索任务和领域。这些数据集被分为人工撰写、LLM生成以及混合类型。此外,还引入了NQ-UTD数据集,该数据集的查询源自最近发生的事件,以减少LLM的潜在偏差。研究人员可以使用Cocktail评估各种信息检索模型,并分析其在不同类型数据上的表现。

关键创新:该论文的关键创新在于构建了一个专门针对LLM时代混合数据源环境的综合性信息检索基准测试平台。该平台不仅包含了多样化的数据集,还考虑了LLM可能存在的偏差问题,并引入了新的数据集来缓解这一问题。

关键设计:Cocktail的关键设计包括:1) 数据集的多样性,涵盖了不同的文本检索任务和领域;2) 数据来源的混合性,既包含人工撰写的内容,也包含LLM生成的内容;3) 引入NQ-UTD数据集,以减少LLM的潜在偏差;4) 提供统一的评估指标和实验流程,方便研究人员进行模型评估和比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过在Cocktail基准上对最先进的检索模型进行1000多次实验,揭示了神经检索模型在排序性能和来源偏差之间存在明显的权衡。实验结果表明,模型在人工撰写内容上表现良好,但在LLM生成内容上可能存在性能下降或偏差。NQ-UTD数据集的引入有助于缓解LLM的偏差问题,并提高模型在最新事件查询上的性能。

🎯 应用场景

该研究成果可应用于信息检索、搜索引擎、问答系统等领域,帮助研究人员和工程师更好地评估和优化模型在AIGC环境下的性能。通过使用Cocktail基准,可以促进对AIGC影响下的信息检索问题的深入研究,并推动相关技术的进步,最终提升用户在信息获取方面的体验。

📄 摘要(原文)

The proliferation of Large Language Models (LLMs) has led to an influx of AI-generated content (AIGC) on the internet, transforming the corpus of Information Retrieval (IR) systems from solely human-written to a coexistence with LLM-generated content. The impact of this surge in AIGC on IR systems remains an open question, with the primary challenge being the lack of a dedicated benchmark for researchers. In this paper, we introduce Cocktail, a comprehensive benchmark tailored for evaluating IR models in this mixed-sourced data landscape of the LLM era. Cocktail consists of 16 diverse datasets with mixed human-written and LLM-generated corpora across various text retrieval tasks and domains. Additionally, to avoid the potential bias from previously included dataset information in LLMs, we also introduce an up-to-date dataset, named NQ-UTD, with queries derived from recent events. Through conducting over 1,000 experiments to assess state-of-the-art retrieval models against the benchmarked datasets in Cocktail, we uncover a clear trade-off between ranking performance and source bias in neural retrieval models, highlighting the necessity for a balanced approach in designing future IR systems. We hope Cocktail can serve as a foundational resource for IR research in the LLM era, with all data and code publicly available at \url{https://github.com/KID-22/Cocktail}.