Themis: A Reference-free NLG Evaluation Language Model with Flexibility and Interpretability

📄 arXiv: 2406.18365v2 📥 PDF

作者: Xinyu Hu, Li Lin, Mingqi Gao, Xunjian Yin, Xiaojun Wan

分类: cs.CL

发布日期: 2024-06-26 (更新: 2024-10-08)

备注: Accepted by EMNLP 2024


💡 一句话要点

提出Themis,一种灵活且可解释的无参考NLG评估语言模型,优于GPT-4。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自然语言生成评估 大型语言模型 无参考评估 一致性验证 偏好对齐

📋 核心要点

  1. 现有NLG评估方法依赖参考文本,且评估灵活性不足,限制了其应用范围。
  2. Themis通过多角度一致性验证和偏好对齐训练,实现无参考、灵活且可解释的评估。
  3. 实验表明,Themis在多种NLG任务上超越GPT-4等模型,并具备良好的泛化能力。

📝 摘要(中文)

自然语言生成(NLG)任务的评估是一个重要且长期存在的研究领域。随着强大的大型语言模型(LLM)的出现,一些研究转向基于LLM的自动评估方法,这些方法显示出成为继传统的基于字符串和基于模型的指标之后的新评估范式的巨大潜力。然而,尽管现有方法的性能有所提高,但它们仍然存在一些缺陷,例如依赖参考和有限的评估灵活性。因此,在本文中,我们精心构建了一个大规模的NLG评估语料库NLG-Eval,其中包含来自人类和GPT-4的注释,以缓解该领域相关数据的缺乏。此外,我们提出Themis,一个专门用于NLG评估的LLM,它通过我们设计的多角度一致性验证和面向评分的偏好对齐方法进行训练。Themis可以在没有参考的情况下进行灵活且可解释的评估,并且在各种NLG任务上表现出卓越的评估性能,同时很好地推广到未见过的任务,并超越包括GPT-4在内的其他评估模型。

🔬 方法详解

问题定义:论文旨在解决现有NLG评估方法对参考文本的依赖以及评估灵活性不足的问题。现有方法的痛点在于需要人工标注的参考答案,限制了评估效率和适用性,并且难以适应多样化的生成任务。

核心思路:论文的核心思路是训练一个专门用于NLG评估的大型语言模型Themis,使其能够在没有参考文本的情况下,通过学习人类和GPT-4的评估偏好,进行灵活且可解释的评估。通过多角度一致性验证和面向评分的偏好对齐,使模型能够更准确地捕捉生成文本的质量。

技术框架:Themis的训练框架主要包括两个阶段:首先,构建大规模NLG评估语料库NLG-Eval,包含人工和GPT-4的标注。然后,使用该语料库,通过多角度一致性验证和面向评分的偏好对齐方法训练Themis模型。评估时,Themis直接输入生成文本,输出评估分数和解释。

关键创新:论文的关键创新在于提出了Themis,一个专门用于NLG评估的LLM,它摆脱了对参考文本的依赖,实现了无参考评估。此外,多角度一致性验证和面向评分的偏好对齐方法能够有效提升模型的评估准确性和可解释性。与现有方法的本质区别在于,Themis是一种基于学习的评估方法,能够自动学习评估标准,而传统方法依赖人工设计的规则或预训练模型。

关键设计:论文设计了多角度一致性验证方法,鼓励模型在不同角度下对生成文本进行一致的评估。面向评分的偏好对齐方法则通过学习人类和GPT-4的评分偏好,使模型的评分更接近人类的认知。具体的损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Themis在多种NLG任务上取得了显著的性能提升,超越了包括GPT-4在内的其他评估模型。实验结果表明,Themis不仅在已知的NLG任务上表现出色,而且能够很好地泛化到未见过的任务,证明了其强大的评估能力和泛化能力。具体的性能数据和提升幅度在论文中未详细说明,属于未知信息。

🎯 应用场景

Themis可应用于各种自然语言生成任务的自动评估,例如机器翻译、文本摘要、对话生成等。它能够降低人工评估的成本,提高评估效率,并为NLG模型的发展提供更有效的反馈。未来,Themis有望成为NLG研究的标准评估工具,促进该领域的进步。

📄 摘要(原文)

The evaluation of natural language generation (NLG) tasks is a significant and longstanding research area. With the recent emergence of powerful large language models (LLMs), some studies have turned to LLM-based automatic evaluation methods, which demonstrate great potential to become a new evaluation paradigm following traditional string-based and model-based metrics. However, despite the improved performance of existing methods, they still possess some deficiencies, such as dependency on references and limited evaluation flexibility. Therefore, in this paper, we meticulously construct a large-scale NLG evaluation corpus NLG-Eval with annotations from both human and GPT-4 to alleviate the lack of relevant data in this field. Furthermore, we propose Themis, an LLM dedicated to NLG evaluation, which has been trained with our designed multi-perspective consistency verification and rating-oriented preference alignment methods. Themis can conduct flexible and interpretable evaluations without references, and it exhibits superior evaluation performance on various NLG tasks, simultaneously generalizing well to unseen tasks and surpassing other evaluation models, including GPT-4.