HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models

📄 arXiv: 2409.16191v1 📥 PDF

作者: Haoran Que, Feiyu Duan, Liqun He, Yutao Mou, Wangchunshu Zhou, Jiaheng Liu, Wenge Rong, Zekun Moore Wang, Jian Yang, Ge Zhang, Junran Peng, Zhaoxiang Zhang, Songyang Zhang, Kai Chen

分类: cs.CL

发布日期: 2024-09-24

🔗 代码/项目: GITHUB


💡 一句话要点

HelloBench:评估大型语言模型长文本生成能力的综合基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文本生成 大型语言模型 评估基准 分层评估 自然语言处理

📋 核心要点

  1. 现有长文本生成基准不足以全面评估大型语言模型(LLMs)在此方面的能力,缺乏对生成质量和长度的有效衡量。
  2. HelloBench通过分层任务设计和HelloEval评估方法,旨在更全面、高效地评估LLMs的长文本生成能力,并与人类评估对齐。
  3. 实验表明,现有LLMs在长文本生成方面存在长度限制、重复和质量下降等问题,HelloEval评估方法与人类评估具有高度相关性。

📝 摘要(中文)

近年来,大型语言模型(LLMs)在各种任务(例如,长上下文理解)中表现出了卓越的能力,并且已经提出了许多基准。然而,我们观察到长文本生成能力尚未得到充分研究。因此,我们引入了分层长文本生成基准(HelloBench),这是一个全面的、野外的、开放式的基准,用于评估LLM在生成长文本方面的性能。基于布鲁姆分类法,HelloBench将长文本生成任务分为五个子任务:开放式问答、摘要、聊天、文本补全和启发式文本生成。此外,我们提出了一种与人类对齐的评估方法——分层长文本评估(HelloEval),该方法显著减少了人工评估所需的时间和精力,同时保持了与人工评估的高度相关性。我们对大约30个主流LLM进行了广泛的实验,并观察到当前的LLM缺乏长文本生成能力。具体来说,首先,无论指令是否包含显式或隐式的长度约束,我们都观察到大多数LLM无法生成超过4000个单词的文本。其次,我们观察到,虽然一些LLM可以生成更长的文本,但存在许多问题(例如,严重的重复和质量下降)。第三,为了证明HelloEval的有效性,我们将HelloEval与传统指标(例如,ROUGE、BLEU等)和LLM-as-a-Judge方法进行了比较,结果表明HelloEval与人工评估的相关性最高。我们在https://github.com/Quehry/HelloBench发布了我们的代码。

🔬 方法详解

问题定义:论文旨在解决现有基准在评估大型语言模型(LLMs)长文本生成能力方面的不足。现有方法要么不够全面,无法覆盖各种长文本生成任务,要么评估方法与人类判断不一致,导致评估结果不准确。此外,现有方法在评估长文本生成时,效率较低,需要大量的人工标注。

核心思路:论文的核心思路是构建一个更全面、高效且与人类评估对齐的长文本生成基准。通过分层任务设计,覆盖不同的长文本生成场景;通过提出新的评估方法HelloEval,减少人工评估成本,同时保证评估结果的准确性。

技术框架:HelloBench包含五个子任务:开放式问答、摘要、聊天、文本补全和启发式文本生成。这些任务基于布鲁姆分类法进行组织,旨在评估LLMs在不同认知层次上的长文本生成能力。HelloEval是一种分层评估方法,它首先对生成的文本进行自动评估,然后对自动评估结果进行人工校正,从而减少了人工评估的工作量。

关键创新:论文的关键创新在于提出了HelloBench和HelloEval。HelloBench是一个更全面的长文本生成基准,覆盖了更多的任务类型。HelloEval是一种更高效且与人类评估对齐的评估方法,它减少了人工评估的成本,同时保证了评估结果的准确性。

关键设计:HelloEval的关键设计在于其分层结构。首先,使用传统的文本生成评估指标(如ROUGE、BLEU等)对生成的文本进行自动评估。然后,人工评估者只对自动评估结果不确定的文本进行评估,从而减少了人工评估的工作量。此外,HelloEval还考虑了文本的长度、重复率和连贯性等因素,以更全面地评估生成的文本的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有LLMs在长文本生成方面存在局限性,例如无法生成超过4000字的长文本,以及生成文本中存在重复和质量下降等问题。同时,HelloEval与人工评估的相关性高于传统指标(如ROUGE、BLEU等)和LLM-as-a-Judge方法,证明了HelloEval的有效性。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型在长文本生成方面的能力,推动LLMs在需要生成长篇内容的应用场景中的发展,例如:长篇小说创作、报告撰写、新闻稿生成、技术文档编写等。同时,HelloBench和HelloEval可以作为评估LLMs长文本生成能力的通用工具,促进该领域的研究进展。

📄 摘要(原文)

In recent years, Large Language Models (LLMs) have demonstrated remarkable capabilities in various tasks (e.g., long-context understanding), and many benchmarks have been proposed. However, we observe that long text generation capabilities are not well investigated. Therefore, we introduce the Hierarchical Long Text Generation Benchmark (HelloBench), a comprehensive, in-the-wild, and open-ended benchmark to evaluate LLMs' performance in generating long text. Based on Bloom's Taxonomy, HelloBench categorizes long text generation tasks into five subtasks: open-ended QA, summarization, chat, text completion, and heuristic text generation. Besides, we propose Hierarchical Long Text Evaluation (HelloEval), a human-aligned evaluation method that significantly reduces the time and effort required for human evaluation while maintaining a high correlation with human evaluation. We have conducted extensive experiments across around 30 mainstream LLMs and observed that the current LLMs lack long text generation capabilities. Specifically, first, regardless of whether the instructions include explicit or implicit length constraints, we observe that most LLMs cannot generate text that is longer than 4000 words. Second, we observe that while some LLMs can generate longer text, many issues exist (e.g., severe repetition and quality degradation). Third, to demonstrate the effectiveness of HelloEval, we compare HelloEval with traditional metrics (e.g., ROUGE, BLEU, etc.) and LLM-as-a-Judge methods, which show that HelloEval has the highest correlation with human evaluation. We release our code in https://github.com/Quehry/HelloBench.