Best in Tau@LLMJudge: Criteria-Based Relevance Evaluation with Llama3
作者: Naghmeh Farzi, Laura Dietz
分类: cs.IR, cs.AI
发布日期: 2024-10-17
💡 一句话要点
提出基于Llama3和多维度标准的LLMJudge评估方法,提升信息检索系统评估的准确性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 信息检索评估 大型语言模型 相关性判断 LLMJudge 多维度评估
📋 核心要点
- 传统信息检索评估依赖人工标注,存在偏差且成本高,难以规模化应用。
- 将相关性分解为准确性、覆盖率等多个标准,提示LLM进行多维度评估并聚合。
- 通过调整段落语言风格使其与查询一致,减少语言差异对LLM评估的影响。
📝 摘要(中文)
传统的信息检索(IR)系统评估依赖于人工标注的相关性标签,这种方法既有偏见,又在大规模情况下成本高昂。大型语言模型(LLM)提供了一种替代方案,可以直接提示它们为每个查询相关的段落分配相关性标签。本研究探索了直接提示LLM以分配相关性标签的替代方法,基于两个假设:假设1认为将“相关性”分解为具体标准(准确性、覆盖率、主题性和上下文契合度)是有帮助的。我们探索了不同的方法,提示LLM获得所有段落的标准级别评分,并考虑了将标准级别评分聚合为相关性标签的各种方法。假设2认为查询和段落之间语言风格的差异可能会对自动相关性标签预测产生负面影响。我们探讨了是否可以通过首先以查询的语言风格综合段落的摘要,然后使用该摘要代替段落来评估其相关性,从而实现改进。我们基于2024年夏季运行的LLMJudge挑战赛的数据对我们的方法进行了实证评估,其中我们的“Four Prompts”方法在Kendall's tau中获得了最高分。
🔬 方法详解
问题定义:论文旨在解决信息检索系统评估中人工标注成本高、易产生偏差的问题。现有方法依赖人工标注相关性,耗时耗力,且标注者的主观性会影响评估结果。此外,直接使用LLM进行相关性判断时,查询和文档的语言风格差异可能导致评估不准确。
核心思路:论文的核心思路是将相关性评估分解为多个可量化的标准,如准确性、覆盖率、主题性和上下文契合度,并利用LLM对这些标准进行逐一评估。同时,为了消除语言风格差异的影响,论文还尝试将文档改写为与查询风格一致的摘要,再进行相关性评估。
技术框架:整体流程包括:1) 将“相关性”分解为多个标准;2) 使用不同的prompt提示LLM对每个文档的各个标准进行评分;3) 将各个标准的评分聚合为一个最终的相关性标签;4) (可选)使用LLM将文档改写为与查询风格一致的摘要,然后使用摘要代替原始文档进行相关性评估。
关键创新:论文的关键创新在于将复杂的相关性评估任务分解为多个更易于LLM处理的子任务,并针对语言风格差异提出了文档改写的预处理步骤。这种分解和预处理的方法能够更有效地利用LLM的语言理解能力,提高评估的准确性。
关键设计:论文的关键设计包括:1) 选择合适的prompt来引导LLM进行标准级别的评分;2) 设计有效的聚合方法,将各个标准的评分合并为一个最终的相关性标签;3) 研究不同的文档改写策略,以消除语言风格差异的影响。具体参数设置和网络结构未知。
📊 实验亮点
论文提出的“Four Prompts”方法在LLMJudge挑战赛中获得了最高的Kendall's tau分数,表明该方法在相关性评估方面具有显著优势。具体性能数据和对比基线未知,但实验结果证明了将相关性分解为多个标准并利用LLM进行评估的有效性。
🎯 应用场景
该研究成果可应用于各种信息检索系统的自动评估,例如搜索引擎、问答系统和推荐系统。通过降低人工标注的成本和偏差,可以更高效、更客观地评估和优化这些系统的性能。此外,该方法还可以用于自动生成训练数据,以改进信息检索模型的训练。
📄 摘要(原文)
Traditional evaluation of information retrieval (IR) systems relies on human-annotated relevance labels, which can be both biased and costly at scale. In this context, large language models (LLMs) offer an alternative by allowing us to directly prompt them to assign relevance labels for passages associated with each query. In this study, we explore alternative methods to directly prompt LLMs for assigned relevance labels, by exploring two hypotheses: Hypothesis 1 assumes that it is helpful to break down "relevance" into specific criteria - exactness, coverage, topicality, and contextual fit. We explore different approaches that prompt large language models (LLMs) to obtain criteria-level grades for all passages, and we consider various ways to aggregate criteria-level grades into a relevance label. Hypothesis 2 assumes that differences in linguistic style between queries and passages may negatively impact the automatic relevance label prediction. We explore whether improvements can be achieved by first synthesizing a summary of the passage in the linguistic style of a query, and then using this summary in place of the passage to assess its relevance. We include an empirical evaluation of our approaches based on data from the LLMJudge challenge run in Summer 2024, where our "Four Prompts" approach obtained the highest scores in Kendall's tau.