Exploring the features used for summary evaluation by Human and GPT

📄 arXiv: 2512.19620v1 📥 PDF

作者: Zahra Sadeghi, Evangelos Milios, Frank Rudzicz

分类: cs.CL, cs.AI

发布日期: 2025-12-22


💡 一句话要点

研究人类与GPT评估摘要时使用的特征,并提升GPT摘要评估能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 摘要评估 大型语言模型 特征分析 人类对齐 自动化评估

📋 核心要点

  1. 现有摘要评估方法缺乏对人类和LLM评估特征的深入理解,阻碍了自动化评估的准确性和可靠性。
  2. 本研究通过统计和机器学习方法,探索人类和GPT在摘要评估中使用的关键特征,并建立评估分数与指标之间的映射关系。
  3. 实验结果表明,指导GPT使用人类评估指标能够显著提升其摘要评估能力,使其判断更符合人类的认知。

📝 摘要(中文)

摘要评估旨在衡量生成的摘要在多大程度上反映了源文本的关键思想和含义,这需要对内容有深刻的理解。大型语言模型(LLMs)已被用于自动化此过程,充当评估摘要相对于原始文本的质量的评判者。虽然之前的研究调查了LLM与人类反应之间的一致性,但人们对LLM在基于特定质量维度进行评估时利用的属性或特征的理解尚不充分,并且对评估分数和指标之间的映射关注不足。在本文中,我们通过研究统计和机器学习指标来解决这个问题,并发现与人类和Generative Pre-trained Transformers(GPTs)反应对齐的特征。此外,我们表明,指示GPT采用人类使用的指标可以改善他们的判断,并使其更好地符合人类的反应。

🔬 方法详解

问题定义:论文旨在解决摘要评估自动化的问题,特别是如何使大型语言模型(LLMs)的评估结果更接近人类的评估结果。现有方法缺乏对人类和LLM评估摘要时所关注特征的深入理解,导致LLM评估结果与人类存在偏差。

核心思路:论文的核心思路是通过分析人类和LLM在评估摘要时使用的特征,找到两者之间的共性和差异,然后利用这些信息来指导LLM的评估过程,使其更符合人类的判断标准。具体来说,就是让LLM学习人类使用的评估指标。

技术框架:论文的技术框架主要包括以下几个步骤:1) 收集人类对摘要的评估数据;2) 提取摘要的各种统计和机器学习特征;3) 分析人类和LLM的评估结果与这些特征之间的关系;4) 利用分析结果指导LLM的评估过程。

关键创新:论文的关键创新在于揭示了人类和LLM在摘要评估中使用的特征,并证明了通过指导LLM使用人类评估指标可以提高其评估准确性。这为提高摘要评估自动化的可靠性提供了一种新的思路。

关键设计:论文的关键设计包括:1) 选择合适的统计和机器学习指标来描述摘要的特征;2) 设计有效的分析方法来揭示人类和LLM的评估结果与这些特征之间的关系;3) 设计合适的指导策略,使LLM能够有效地利用人类评估指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,通过指导GPT使用人类评估指标,可以显著提高其摘要评估能力,使其判断更符合人类的认知。具体性能提升数据未知,但研究强调了人类评估指标对提升LLM评估能力的重要性,为后续研究提供了方向。

🎯 应用场景

该研究成果可应用于自动摘要生成系统的评估,提高评估的准确性和效率。通过使机器评估更接近人类标准,可以更好地指导摘要生成模型的训练和优化,最终提升自动摘要的质量。此外,该方法也可推广到其他文本生成任务的评估中。

📄 摘要(原文)

Summary assessment involves evaluating how well a generated summary reflects the key ideas and meaning of the source text, requiring a deep understanding of the content. Large Language Models (LLMs) have been used to automate this process, acting as judges to evaluate summaries with respect to the original text. While previous research investigated the alignment between LLMs and Human responses, it is not yet well understood what properties or features are exploited by them when asked to evaluate based on a particular quality dimension, and there has not been much attention towards mapping between evaluation scores and metrics. In this paper, we address this issue and discover features aligned with Human and Generative Pre-trained Transformers (GPTs) responses by studying statistical and machine learning metrics. Furthermore, we show that instructing GPTs to employ metrics used by Human can improve their judgment and conforming them better with human responses.