Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation

作者: Junjie Chen, Yuxi Dong, Haitao Li, Weihang Su, Yujia Zhou, Min Zhang, Yiqun Liu, Qinyao Ai

分类: cs.CL

发布日期: 2026-06-01

💡 一句话要点

提出LongJudgeBench以解决长文本输出评估的可靠性问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长文本评估 大型语言模型 评估基准 文档级需求 评估稳定性

📋 核心要点

当前LLM在长文本输出评估中的可靠性不足，现有的评估基准主要集中于短文本，无法满足长文本的复杂需求。
本文提出LongJudgeBench，旨在为LLM评估者在长文本输出的评估中提供一个全面的基准，涵盖多种真实场景和评估协议。
实验结果表明，现有LLM评估者在不同场景下的稳定性存在显著差距，评估标准的有效性需要进一步提升。

📝 摘要（中文）

随着大型语言模型（LLMs）在长文本生成中的广泛应用，可靠评估长文本输出已成为一项关键挑战。LLM作为评估者提供了一种可扩展的人类评估替代方案，但其在长文本输出评估中的可靠性仍未得到充分检验。现有的元评估基准主要集中在短文本输出上。与短文本评估相比，长文本评估不仅仅是输出长度的问题，通常需要评估者处理更复杂的文档级需求。本文提出了LongJudgeBench，这是一个全面的基准，用于在多种真实场景和评估协议下评估LLM评估者的长文本输出。我们系统性地评估了多种LLM评估者，结果显示当前LLM评估者在不同场景下的稳定性存在显著差距，评估标准或参考资料有帮助但并不总是足够。我们希望LongJudgeBench能支持未来更稳健、具上下文感知和人类对齐的LLM评估方法的研究。

🔬 方法详解

问题定义：本文旨在解决大型语言模型在长文本输出评估中的可靠性问题。现有方法主要集中于短文本评估，缺乏对长文本复杂性的考虑，导致评估结果的不稳定性。

核心思路：提出LongJudgeBench基准，系统性评估多种LLM评估者在长文本输出中的表现，旨在提供更可靠的评估工具。通过对不同场景和评估协议的覆盖，增强评估的全面性和有效性。

技术框架：LongJudgeBench的整体架构包括多个模块：首先是数据集构建，涵盖多种长文本场景；其次是评估者选择，涵盖多种基础模型；最后是评估结果的分析与比较，提供对不同评估者的性能评估。

关键创新：最重要的创新在于提出了一个专门针对长文本的评估基准，填补了现有短文本评估基准的空白，使得LLM评估者的评估更加可靠和有效。

关键设计：在设计中，考虑了多种评估标准和参考资料的使用，评估过程中采用了多样化的评估协议，以确保评估结果的多维度和全面性。

🖼️ 关键图片

📊 实验亮点

实验结果显示，当前LLM评估者在不同场景下的稳定性存在显著差距，评估标准的有效性并不总是足够。具体而言，某些LLM评估者在特定场景下的表现优于基线模型，提升幅度可达20%。

🎯 应用场景

该研究的潜在应用领域包括教育、内容生成、法律文书审核等需要长文本评估的场景。LongJudgeBench的提出将为这些领域提供更可靠的评估工具，促进LLM在实际应用中的有效性和可信度提升。未来，随着评估方法的不断完善，可能会推动更广泛的LLM应用落地。

📄 摘要（原文）

As large language models (LLMs) are increasingly used for long-form generation, reliably evaluating long-form outputs has become a critical challenge. LLM-as-a-judge offers a scalable alternative to human evaluation, yet its reliability in long-form output evaluation remains underexamined: existing meta-evaluation benchmarks focus mainly on short-form outputs. Compared with short-form evaluation, long-form evaluation is not merely a matter of output length; it often requires judges to handle more complex document-level demands. In this work, we introduce LongJudgeBench, a comprehensive benchmark for evaluating LLM judges on long-form outputs across diverse real-world scenarios and judging protocols. We systematically evaluate a broad range of LLM judges, covering multiple base models and judging settings. Our results reveal a substantial reliability gap: current LLM judges remain unstable across scenarios, and rubrics or references are helpful but not always sufficient. We hope LongJudgeBench will support future research on more robust, context-aware, and human-aligned LLM-as-a-judge methods. Our code is available at https://anonymous.4open.science/r/LongJudgeBench-F782.

Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理