Improving LLM-as-a-Judge Inference with the Judgment Distribution
作者: Victor Wang, Michael J. Q. Zhang, Eunsol Choi
分类: cs.CL
发布日期: 2025-03-04 (更新: 2025-09-26)
备注: EMNLP 2025 Findings
💡 一句话要点
利用判断分布改进LLM作为裁判的推理性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM裁判 文本质量评估 判断分布 风险厌恶 思维链 语言模型 偏好学习
📋 核心要点
- 现有LLM裁判通常仅使用贪婪解码提取判断,忽略了LLM输出的概率分布信息,可能导致次优性能。
- 该论文提出利用LLM裁判输出的判断分布,通过计算均值、引入风险厌恶等方法,更准确地提取细粒度的偏好。
- 实验表明,利用判断分布的均值始终优于贪婪解码,且结合风险厌恶的方法能进一步提升LLM裁判的性能。
📝 摘要(中文)
使用语言模型来近似人类对文本质量的偏好(LLM-as-a-judge)已成为一种标准实践,适用于许多任务。通常仅从裁判的文本输出中提取判断,通常使用贪婪解码。然而,LLM裁判自然地提供关于判断token的分布,从而可以采用各种推理方法来提取细粒度的偏好。我们发现,在所有评估设置(即逐点、成对和列表式)中,取判断分布的平均值始终优于取模式(即贪婪解码)。我们进一步探索了从判断分布中推导偏好的新方法,并发现结合风险厌恶的方法通常可以提高性能。最后,我们分析了LLM-as-a-judge与思维链(CoT)提示的结合,表明CoT会缩小判断分布的范围,通常会损害性能。我们的研究结果表明,利用分布输出可以改进LLM-as-a-judge,而不是仅使用文本界面。
🔬 方法详解
问题定义:论文旨在解决如何更有效地利用LLM作为裁判(LLM-as-a-judge)的问题。现有方法通常采用贪婪解码,仅使用LLM输出的最可能的文本结果来判断文本质量,忽略了LLM输出的概率分布信息。这种方法可能无法充分捕捉LLM的细粒度偏好,导致判断结果不够准确。
核心思路:论文的核心思路是充分利用LLM裁判输出的判断分布,而不是仅仅依赖于贪婪解码的单一结果。通过分析整个分布,可以更全面地了解LLM的偏好,从而做出更准确的判断。论文探索了多种从判断分布中提取偏好的方法,包括计算均值、引入风险厌恶等。
技术框架:论文的技术框架主要包括以下几个步骤:1) 使用LLM生成对文本质量的判断,得到判断token的概率分布;2) 从判断分布中提取偏好,包括计算均值、应用风险厌恶函数等;3) 使用提取的偏好进行文本质量评估,例如逐点、成对或列表式排序;4) 评估不同偏好提取方法在不同评估设置下的性能。
关键创新:论文的关键创新在于:1) 提出了利用LLM裁判输出的判断分布进行推理,而不是仅仅依赖于贪婪解码;2) 探索了多种从判断分布中提取偏好的方法,包括计算均值和引入风险厌恶;3) 分析了CoT提示对判断分布的影响,发现CoT可能会损害性能。
关键设计:论文的关键设计包括:1) 使用不同的风险厌恶函数(例如指数效用函数)来调整从判断分布中提取的偏好;2) 分析CoT提示对判断分布的熵和方差的影响;3) 在不同的评估设置(逐点、成对和列表式)下评估不同方法的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,取判断分布的均值始终优于贪婪解码。此外,结合风险厌恶的方法通常可以进一步提高性能。例如,在某些评估设置下,使用风险厌恶函数可以将性能提升高达5%。分析还表明,CoT提示可能会缩小判断分布的范围,从而损害性能。
🎯 应用场景
该研究成果可广泛应用于需要自动化文本质量评估的场景,例如机器翻译评估、文本摘要评估、对话系统评估等。通过更准确地模拟人类偏好,可以提高自动化评估的可靠性和效率,从而加速相关领域的研究和应用。
📄 摘要(原文)
Using language models to scalably approximate human preferences on text quality (LLM-as-a-judge) has become a standard practice applicable to many tasks. A judgment is often extracted from the judge's textual output alone, typically with greedy decoding. However, LLM judges naturally provide distributions over judgment tokens, inviting a breadth of inference methods for extracting fine-grained preferences. We find that taking the mean of the judgment distribution consistently outperforms taking the mode (i.e. greedy decoding) in all evaluation settings (i.e. pointwise, pairwise, and listwise). We further explore novel methods of deriving preferences from judgment distributions, and find that methods incorporating risk aversion often improve performance. Lastly, we analyze LLM-as-a-judge paired with chain-of-thought (CoT) prompting, showing that CoT can collapse the spread of the judgment distribution, often harming performance. Our findings show that leveraging distributional output improves LLM-as-a-judge, as opposed to using the text interface alone.