A Human-AI Comparative Analysis of Prompt Sensitivity in LLM-Based Relevance Judgment

📄 arXiv: 2504.12408v1 📥 PDF

作者: Negar Arabzadeh, Charles L. A . Clarke

分类: cs.IR, cs.CL

发布日期: 2025-04-16

DOI: 10.1145/3726302.3730159

🔗 代码/项目: GITHUB


💡 一句话要点

研究LLM提示词敏感性对信息检索相关性判断的影响,并提供数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 提示词工程 相关性判断 信息检索 TREC数据集

📋 核心要点

  1. 现有方法依赖LLM进行相关性判断,但缺乏对提示词敏感性的系统研究,影响了LLM判断的可靠性。
  2. 本研究通过收集和比较人类与LLM生成的提示词,分析不同提示词对LLM相关性判断结果的影响。
  3. 实验结果表明,提示词的选择显著影响LLM与人类标注的一致性,并公开了数据集以支持未来研究。

📝 摘要(中文)

大型语言模型(LLM)越来越多地用于自动化信息检索(IR)任务中的相关性判断,其结果与人类标注的一致性已接近人际一致性。为了评估基于LLM的相关性判断的鲁棒性和可靠性,本研究系统地调查了提示词敏感性对该任务的影响。我们从15位人类专家和15个LLM处收集了用于相关性评估的提示词,涵盖二元、分级和成对三种任务,总计90个提示词。在过滤掉来自3个人类和3个LLM的不可用提示词后,我们使用剩余的72个提示词,并采用三个不同的LLM作为判断者,标注来自两个TREC深度学习数据集(2020和2021)的文档/查询对。我们使用Cohen's $κ$和成对一致性度量,将LLM生成的标签与TREC官方人类标签进行比较。除了研究提示词变化对与人类标签一致性的影响外,我们还比较了人类和LLM生成的提示词,并分析了不同LLM作为判断者之间的差异。我们还将人类和LLM生成的提示词与Bing和TREC 2024检索增强生成(RAG)Track用于相关性评估的标准UMBRELLA提示词进行了比较。为了支持未来基于LLM的评估研究,我们在https://github.com/Narabzad/prompt-sensitivity-relevance-judgements/上发布了所有数据和提示词。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在信息检索相关性判断任务中,由于提示词的细微变化而导致判断结果不一致的问题。现有方法通常直接使用预设的提示词,忽略了提示词对LLM判断结果的潜在影响,这可能导致LLM的判断结果不稳定,降低了其在实际应用中的可靠性。

核心思路:论文的核心思路是通过系统性地研究不同提示词对LLM相关性判断结果的影响,揭示LLM对提示词的敏感性。通过比较人类专家和LLM生成的提示词,分析不同提示词之间的差异,并评估这些差异对LLM判断结果的影响。这样设计的目的是为了更好地理解LLM在相关性判断任务中的行为,并为设计更鲁棒、更可靠的LLM相关性判断系统提供指导。

技术框架:整体框架包括以下几个主要阶段:1) 提示词收集:从人类专家和LLM处收集用于相关性判断的提示词,涵盖二元、分级和成对三种任务。2) 提示词过滤:过滤掉不可用的提示词。3) 相关性判断:使用不同的LLM作为判断者,利用过滤后的提示词标注TREC深度学习数据集中的文档/查询对。4) 结果评估:使用Cohen's $κ$和成对一致性度量,将LLM生成的标签与TREC官方人类标签进行比较,分析提示词变化对一致性的影响。5) 提示词比较:比较人类和LLM生成的提示词,分析不同LLM作为判断者之间的差异。

关键创新:最重要的技术创新点在于系统性地研究了提示词敏感性对LLM相关性判断的影响。与现有方法相比,该研究不仅关注LLM的整体性能,更深入地探讨了提示词这一关键因素对LLM判断结果的影响。此外,论文还公开了收集到的提示词和标注数据,为未来研究提供了宝贵的资源。

关键设计:关键设计包括:1) 提示词的多样性:从人类专家和LLM处收集提示词,保证了提示词的多样性。2) 任务类型的覆盖:涵盖二元、分级和成对三种任务,使得研究结果更具普适性。3) LLM判断者的选择:使用不同的LLM作为判断者,分析不同LLM之间的差异。4) 评估指标的选择:使用Cohen's $κ$和成对一致性度量,全面评估LLM与人类标注的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提示词的选择对LLM与人类标注的一致性有显著影响。通过对比不同提示词和不同LLM的表现,揭示了LLM在相关性判断任务中的局限性。公开的数据集和提示词资源将促进未来对LLM评估方法的研究。

🎯 应用场景

该研究成果可应用于信息检索系统的自动化评估、搜索引擎的排序优化、以及问答系统的答案相关性判断等领域。通过理解LLM对提示词的敏感性,可以设计更鲁棒的LLM应用,提高信息检索系统的性能和用户体验,并为未来基于LLM的评估方法提供指导。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly used to automate relevance judgments for information retrieval (IR) tasks, often demonstrating agreement with human labels that approaches inter-human agreement. To assess the robustness and reliability of LLM-based relevance judgments, we systematically investigate impact of prompt sensitivity on the task. We collected prompts for relevance assessment from 15 human experts and 15 LLMs across three tasks~ -- ~binary, graded, and pairwise~ -- ~yielding 90 prompts in total. After filtering out unusable prompts from three humans and three LLMs, we employed the remaining 72 prompts with three different LLMs as judges to label document/query pairs from two TREC Deep Learning Datasets (2020 and 2021). We compare LLM-generated labels with TREC official human labels using Cohen's $κ$ and pairwise agreement measures. In addition to investigating the impact of prompt variations on agreement with human labels, we compare human- and LLM-generated prompts and analyze differences among different LLMs as judges. We also compare human- and LLM-generated prompts with the standard UMBRELA prompt used for relevance assessment by Bing and TREC 2024 Retrieval Augmented Generation (RAG) Track. To support future research in LLM-based evaluation, we release all data and prompts at https://github.com/Narabzad/prompt-sensitivity-relevance-judgements/.