Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation
作者: Junjie Chen, Yuxi Dong, Haitao Li, Weihang Su, Yujia Zhou, Min Zhang, Yiqun Liu, Qinyao Ai
分类: cs.CL
发布日期: 2026-06-01
💡 一句话要点
提出LongJudgeBench以解决长文本输出评估的可靠性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本评估 大型语言模型 评估基准 文档级需求 评估稳定性
📋 核心要点
- 当前LLM在长文本输出评估中的可靠性不足,现有的评估基准主要集中于短文本,无法满足长文本的复杂需求。
- 本文提出LongJudgeBench,旨在为LLM评估者在长文本输出的评估中提供一个全面的基准,涵盖多种真实场景和评估协议。
- 实验结果表明,现有LLM评估者在不同场景下的稳定性存在显著差距,评估标准的有效性需要进一步提升。
📝 摘要(中文)
随着大型语言模型(LLMs)在长文本生成中的广泛应用,可靠评估长文本输出已成为一项关键挑战。LLM作为评估者提供了一种可扩展的人类评估替代方案,但其在长文本输出评估中的可靠性仍未得到充分检验。现有的元评估基准主要集中在短文本输出上。与短文本评估相比,长文本评估不仅仅是输出长度的问题,通常需要评估者处理更复杂的文档级需求。本文提出了LongJudgeBench,这是一个全面的基准,用于在多种真实场景和评估协议下评估LLM评估者的长文本输出。我们系统性地评估了多种LLM评估者,结果显示当前LLM评估者在不同场景下的稳定性存在显著差距,评估标准或参考资料有帮助但并不总是足够。我们希望LongJudgeBench能支持未来更稳健、具上下文感知和人类对齐的LLM评估方法的研究。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在长文本输出评估中的可靠性问题。现有方法主要集中于短文本评估,缺乏对长文本复杂性的考虑,导致评估结果的不稳定性。
核心思路:提出LongJudgeBench基准,系统性评估多种LLM评估者在长文本输出中的表现,旨在提供更可靠的评估工具。通过对不同场景和评估协议的覆盖,增强评估的全面性和有效性。
技术框架:LongJudgeBench的整体架构包括多个模块:首先是数据集构建,涵盖多种长文本场景;其次是评估者选择,涵盖多种基础模型;最后是评估结果的分析与比较,提供对不同评估者的性能评估。
关键创新:最重要的创新在于提出了一个专门针对长文本的评估基准,填补了现有短文本评估基准的空白,使得LLM评估者的评估更加可靠和有效。
关键设计:在设计中,考虑了多种评估标准和参考资料的使用,评估过程中采用了多样化的评估协议,以确保评估结果的多维度和全面性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,当前LLM评估者在不同场景下的稳定性存在显著差距,评估标准的有效性并不总是足够。具体而言,某些LLM评估者在特定场景下的表现优于基线模型,提升幅度可达20%。
🎯 应用场景
该研究的潜在应用领域包括教育、内容生成、法律文书审核等需要长文本评估的场景。LongJudgeBench的提出将为这些领域提供更可靠的评估工具,促进LLM在实际应用中的有效性和可信度提升。未来,随着评估方法的不断完善,可能会推动更广泛的LLM应用落地。
📄 摘要(原文)
As large language models (LLMs) are increasingly used for long-form generation, reliably evaluating long-form outputs has become a critical challenge. LLM-as-a-judge offers a scalable alternative to human evaluation, yet its reliability in long-form output evaluation remains underexamined: existing meta-evaluation benchmarks focus mainly on short-form outputs. Compared with short-form evaluation, long-form evaluation is not merely a matter of output length; it often requires judges to handle more complex document-level demands. In this work, we introduce LongJudgeBench, a comprehensive benchmark for evaluating LLM judges on long-form outputs across diverse real-world scenarios and judging protocols. We systematically evaluate a broad range of LLM judges, covering multiple base models and judging settings. Our results reveal a substantial reliability gap: current LLM judges remain unstable across scenarios, and rubrics or references are helpful but not always sufficient. We hope LongJudgeBench will support future research on more robust, context-aware, and human-aligned LLM-as-a-judge methods. Our code is available at https://anonymous.4open.science/r/LongJudgeBench-F782.