Query-Document Dense Vectors for LLM Relevance Judgment Bias Analysis

📄 arXiv: 2601.01751v1 📥 PDF

作者: Samaneh Mohtadi, Gianluca Demartini

分类: cs.IR, cs.AI, cs.CL

发布日期: 2026-01-05

备注: Accepted for presentation at the ECIR 2026 Full Papers track


💡 一句话要点

提出基于密集向量聚类的框架,用于分析LLM在相关性判断中的偏差

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 相关性判断 信息检索评估 偏差分析 聚类分析

📋 核心要点

  1. 现有方法难以发现LLM作为相关性评估器时存在的系统性偏差,仅关注平均性能。
  2. 论文提出一种基于聚类的框架,将查询-文档对嵌入联合语义空间,分析相关性标签分布。
  3. 实验表明,LLM的系统性偏差集中在特定语义簇中,尤其是在定义寻求、政策相关或模糊查询中。

📝 摘要(中文)

大型语言模型(LLM)由于其低成本和高可扩展性,已被用于信息检索(IR)评估集合的创建,以替代人工评估员进行相关性判断。本文旨在理解LLM在判断相关性时是否存在系统性错误,而不仅仅是评估其平均表现。为此,我们提出了一种新颖的查询-文档(Q-D)表示方法,该方法允许我们分析相关性标签分布,并将LLM和人工标签进行比较,以识别不一致的模式并定位系统性不一致的区域。我们引入了一个基于聚类的框架,将查询-文档对嵌入到联合语义空间中,并将相关性视为一种关系属性。在TREC Deep Learning 2019和2020上的实验表明,人类和LLM之间的系统性不一致集中在特定的语义簇中,而不是随机分布。查询级别的分析揭示了重复出现的失败,最常见于寻求定义、与政策相关或模棱两可的上下文中。查询在其簇中具有较大一致性差异时,会成为不一致的热点,LLM倾向于低召回相关内容或过度包含不相关材料。该框架将全局诊断与局部聚类联系起来,以揭示LLM判断中的隐藏弱点,从而实现偏差感知和更可靠的IR评估。

🔬 方法详解

问题定义:论文旨在解决LLM在信息检索相关性判断中存在的系统性偏差问题。现有方法主要关注LLM的平均性能,而忽略了其可能存在的特定类型的错误模式。这种忽略可能导致对LLM作为评估器的可靠性产生误判,并影响信息检索系统的有效评估。

核心思路:论文的核心思路是将查询-文档对(Q-D pairs)嵌入到一个联合语义空间中,然后利用聚类方法将这些Q-D pairs分组。通过分析每个簇内的相关性标签分布,可以识别LLM和人工评估员之间存在系统性差异的语义区域。这种方法将相关性视为一种关系属性,而非孤立的判断。

技术框架:整体框架包含以下几个主要步骤:1) 使用预训练的语言模型(如BERT)对查询和文档进行编码,生成密集向量表示。2) 将查询和文档的向量表示连接起来,形成Q-D pair的联合向量表示。3) 使用聚类算法(如k-means)将Q-D pairs分组到不同的语义簇中。4) 分析每个簇内的相关性标签分布,比较LLM和人工评估员的判断结果,识别不一致的模式。5) 对查询级别进行分析,找出在不同簇中一致性差异较大的查询,作为不一致的热点。

关键创新:论文的关键创新在于提出了一种基于聚类的框架,用于分析LLM在相关性判断中的偏差。与以往关注平均性能的方法不同,该框架能够识别LLM存在的系统性错误模式,并将其定位到特定的语义区域。此外,该框架将相关性视为一种关系属性,而非孤立的判断,更符合实际情况。

关键设计:论文的关键设计包括:1) 使用预训练语言模型生成高质量的查询和文档向量表示。2) 选择合适的聚类算法,以确保能够将语义相似的Q-D pairs分组到一起。3) 设计合适的指标来衡量LLM和人工评估员在每个簇内的判断一致性。4) 对查询级别进行分析,找出在不同簇中一致性差异较大的查询,作为不一致的热点。具体的参数设置和损失函数等技术细节在论文中没有详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM和人工评估员之间的系统性不一致集中在特定的语义簇中,而非随机分布。查询级别的分析揭示了LLM在定义寻求、政策相关或模糊查询中容易出错。在TREC Deep Learning 2019和2020数据集上的实验验证了该框架的有效性,但具体的性能数据和提升幅度未在摘要中明确给出。

🎯 应用场景

该研究成果可应用于改进LLM在信息检索评估中的应用,通过识别和纠正LLM的系统性偏差,提高IR系统评估的可靠性和准确性。此外,该方法还可以用于分析其他AI系统中的偏差,例如在自然语言生成、图像识别等领域,从而构建更公平、更可靠的AI系统。

📄 摘要(原文)

Large Language Models (LLMs) have been used as relevance assessors for Information Retrieval (IR) evaluation collection creation due to reduced cost and increased scalability as compared to human assessors. While previous research has looked at the reliability of LLMs as compared to human assessors, in this work, we aim to understand if LLMs make systematic mistakes when judging relevance, rather than just understanding how good they are on average. To this aim, we propose a novel representational method for queries and documents that allows us to analyze relevance label distributions and compare LLM and human labels to identify patterns of disagreement and localize systematic areas of disagreement. We introduce a clustering-based framework that embeds query-document (Q-D) pairs into a joint semantic space, treating relevance as a relational property. Experiments on TREC Deep Learning 2019 and 2020 show that systematic disagreement between humans and LLMs is concentrated in specific semantic clusters rather than distributed randomly. Query-level analyses reveal recurring failures, most often in definition-seeking, policy-related, or ambiguous contexts. Queries with large variation in agreement across their clusters emerge as disagreement hotspots, where LLMs tend to under-recall relevant content or over-include irrelevant material. This framework links global diagnostics with localized clustering to uncover hidden weaknesses in LLM judgments, enabling bias-aware and more reliable IR evaluation.