A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation

📄 arXiv: 2406.15227v3 📥 PDF

作者: Irune Zubiaga, Aitor Soroa, Rodrigo Agerri

分类: cs.CL

发布日期: 2024-06-21 (更新: 2024-11-04)

备注: Accepted for Findings of the Association for Computational Linguistics: EMNLP 2024


💡 一句话要点

提出基于LLM排序的自动反叙事生成评估方法,显著提升与人类判断的相关性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 反叙事生成 大型语言模型 自动评估 排序学习 自然语言处理

📋 核心要点

  1. 传统自动评估指标在评估反叙事生成质量时,与人类判断的相关性低,无法准确反映生成文本的优劣。
  2. 利用大型语言模型(LLM)进行成对比较排序,构建锦标赛形式的评估流程,以更准确地模拟人类的偏好判断。
  3. 实验表明,该方法与人类偏好具有高度相关性(ρ=0.88),并分析了不同类型LLM在零样本反叙事生成中的表现。

📝 摘要(中文)

本文提出了一种新颖的方法,使用大型语言模型(LLM)作为评估器来评估反叙事(CN)生成。研究表明,传统的自动评估指标与人类判断的相关性较差,无法捕捉生成的CN与人类感知之间微妙的关系。为了解决这个问题,我们引入了一个基于成对比较的模型排序流程,该流程以锦标赛的形式组织来自不同模型的生成CN。所提出的评估方法与人类偏好高度相关,ρ得分为0.88。此外,我们利用LLM作为零样本CN生成器,并对聊天模型、指令模型和基础模型进行了比较分析,探讨了它们各自的优势和局限性。通过细致的评估,包括微调实验,我们阐明了性能和对特定领域数据响应的差异。我们得出结论,聊天对齐模型在零样本设置下是执行此任务的最佳选择,前提是它们不会因安全问题而拒绝生成答案。

🔬 方法详解

问题定义:现有自动反叙事生成评估方法无法准确反映人类对生成文本质量的判断。传统的BLEU、ROUGE等指标无法捕捉反叙事文本的细微语义和上下文关系,导致评估结果与人类感知不一致。因此,需要一种更贴近人类判断的自动评估方法。

核心思路:利用大型语言模型(LLM)强大的语义理解和推理能力,模拟人类评估过程。通过让LLM对不同模型生成的反叙事文本进行成对比较,并根据其偏好进行排序,从而得到一个更符合人类判断的评估结果。这种方法的核心在于利用LLM作为“裁判”,判断哪个反叙事文本更有效、更合理。

技术框架:该方法主要包含以下几个阶段:1) 使用不同的反叙事生成模型生成候选文本;2) 将这些文本进行两两配对;3) 将每对文本输入到LLM中,要求LLM判断哪个文本更符合反叙事的要求;4) 根据LLM的判断结果,构建一个排序列表;5) 使用Spearman相关系数等指标,评估该排序列表与人类判断的相关性。整个流程类似于一个“锦标赛”,最终胜出的文本被认为是质量最高的。

关键创新:该方法的关键创新在于将LLM作为评估器,取代了传统的自动评估指标。与传统指标相比,LLM能够更好地理解文本的语义和上下文,从而做出更准确的判断。此外,该方法采用成对比较的方式,能够更有效地利用LLM的排序能力,提高评估的准确性。

关键设计:在实验中,作者使用了不同的LLM(包括聊天模型、指令模型和基础模型)作为评估器,并比较了它们的性能。此外,作者还对LLM进行了微调,以提高其在反叙事评估任务上的表现。具体来说,作者使用了pairwise ranking loss进行微调,目标是使LLM能够更准确地判断哪个文本更符合反叙事的要求。实验中使用的提示工程(prompt engineering)也至关重要,需要设计合适的提示语,引导LLM进行有效的比较和判断。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于LLM排序的评估方法与人类偏好具有高度相关性,Spearman相关系数ρ达到0.88,显著优于传统的自动评估指标。同时,研究还发现,聊天对齐模型在零样本反叙事生成任务中表现最佳,但需要注意其可能存在的安全限制。

🎯 应用场景

该研究成果可应用于自动反叙事生成系统的评估与优化,帮助开发者更有效地改进模型,生成更具说服力和影响力的反叙事内容。此外,该方法也可推广到其他自然语言生成任务的评估中,例如机器翻译、文本摘要等,具有广泛的应用前景。

📄 摘要(原文)

This paper proposes a novel approach to evaluate Counter Narrative (CN) generation using a Large Language Model (LLM) as an evaluator. We show that traditional automatic metrics correlate poorly with human judgements and fail to capture the nuanced relationship between generated CNs and human perception. To alleviate this, we introduce a model ranking pipeline based on pairwise comparisons of generated CNs from different models, organized in a tournament-style format. The proposed evaluation method achieves a high correlation with human preference, with a $ρ$ score of 0.88. As an additional contribution, we leverage LLMs as zero-shot CN generators and provide a comparative analysis of chat, instruct, and base models, exploring their respective strengths and limitations. Through meticulous evaluation, including fine-tuning experiments, we elucidate the differences in performance and responsiveness to domain-specific data. We conclude that chat-aligned models in zero-shot are the best option for carrying out the task, provided they do not refuse to generate an answer due to security concerns.