Large Language Models Are Active Critics in NLG Evaluation

📄 arXiv: 2410.10724v2 📥 PDF

作者: Shuying Xu, Junjie Hu, Ming Jiang

分类: cs.CL

发布日期: 2024-10-14 (更新: 2025-02-17)


💡 一句话要点

提出Active-Critic,使LLM在NLG评估中从被动遵循转为主动适应。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自然语言生成评估 大型语言模型 主动学习 任务自适应 提示优化

📋 核心要点

  1. 现有NLG评估方法依赖预定义规则,无法适应人类评估的隐式标准和多样化需求。
  2. Active-Critic通过让LLM自我推断任务和动态优化提示,实现对不同NLG任务的适应。
  3. 实验表明,Active-Critic能生成更细致的评估标准,与人类判断的对齐程度更高。

📝 摘要(中文)

传统的使用大型语言模型(LLM)进行自然语言生成(NLG)评估的方法依赖于预定义的任务定义和评估标准,将LLM定位为严格遵循开发者提供的指导的“被动评论员”。然而,人类评估者通常应用隐式标准,并且他们在实践中的期望可能因特定的最终用户需求而差异很大。因此,这些僵化的评估方法难以适应不同的场景,且需要大量的提示定制。为了解决这个问题,我们引入了Active-Critic,这是一种新颖的基于LLM的评估器,它将LLM转变为“主动评论员”,能够使用有限的示例数据来适应不同的NLG任务。Active-Critic包括两个阶段:(1)自我推断目标NLG任务和相关的评估标准,以及(2)动态优化提示以产生与人类判断对齐的分数以及详细的理由。我们的实验表明,Active-Critic可以生成细致的、上下文感知的评估标准,使其能够在多个任务中实现与人类判断的卓越对齐。

🔬 方法详解

问题定义:现有基于LLM的NLG评估方法通常依赖于预定义的任务定义和评估标准,将LLM视为被动的评估者。这种方法无法捕捉人类评估者使用的隐式标准,也难以适应不同用户需求下的多样化场景。因此,需要针对不同任务进行大量的prompt定制,效率低下且泛化性差。

核心思路:Active-Critic的核心思路是将LLM从被动评估者转变为主动评估者。通过让LLM能够自我推断目标NLG任务和相关的评估标准,并动态优化提示,使其能够更好地适应不同的NLG任务,从而更准确地评估生成文本的质量。

技术框架:Active-Critic包含两个主要阶段:1. 任务推断阶段:LLM根据少量示例数据,自动推断目标NLG任务的类型和相关的评估标准。2. 提示优化阶段:LLM根据推断出的任务和标准,动态优化用于评估的提示,以生成与人类判断更对齐的分数和详细的理由。

关键创新:Active-Critic的关键创新在于其主动性。它不再是被动地遵循预定义的规则,而是能够主动地理解任务,并根据任务的特点调整评估策略。这种主动性使得Active-Critic能够更好地适应不同的NLG任务,并生成更准确的评估结果。与现有方法相比,Active-Critic减少了对大量prompt定制的需求,提高了评估的效率和泛化性。

关键设计:Active-Critic的关键设计包括:1. 使用少量示例数据进行任务推断,避免过度依赖预定义规则。2. 设计动态提示优化机制,使LLM能够根据任务特点调整评估策略。3. 结合分数和理由,提供更全面的评估结果。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Active-Critic在多个NLG任务中实现了与人类判断的卓越对齐。具体性能数据和对比基线在论文中未明确给出,但强调了Active-Critic在生成细致的、上下文感知的评估标准方面的优势,以及其在多个任务中与人类判断对齐程度的提升。

🎯 应用场景

Active-Critic可应用于各种NLG任务的自动评估,例如机器翻译、文本摘要、对话生成等。它能够减少人工评估的成本,提高评估效率,并为NLG模型的开发和改进提供更准确的反馈。未来,Active-Critic有望应用于更广泛的文本生成场景,例如内容创作、智能写作等。

📄 摘要(原文)

The conventional paradigm of using large language models (LLMs) for natural language generation (NLG) evaluation relies on pre-defined task definitions and evaluation criteria, positioning LLMs as "passive critics" that strictly follow developer-provided guidelines. However, human evaluators often apply implicit criteria, and their expectations in practice can vary widely based on specific end-user needs. Consequently, these rigid evaluation methods struggle to adapt to diverse scenarios without extensive prompt customization. To address this, we introduce Active-Critic, a novel LLM-based evaluator that transforms LLMs into "active critics'' capable of adapting to diverse NLG tasks using limited example data. Active-Critic consists of two stages: (1) self-inferring the target NLG task and relevant evaluation criteria, and (2) dynamically optimizing prompts to produce human-aligned scores along with detailed justifications. Our experiments show that Active-Critic can generate nuanced, context-aware evaluation criteria, enabling it to achieve superior alignment with human judgments across multiple tasks.