Evaluating the Diversity and Quality of LLM Generated Content

📄 arXiv: 2504.12522 📥 PDF

作者: Alexander Shypula, Shuo Li, Botong Zhang, Vishakh Padmakumar, Kayo Yin, Osbert Bastani

分类: cs.CL, cs.AI

发布日期: 2026-02-28


💡 一句话要点

提出有效语义多样性评估框架,揭示偏好调整模型在生成高质量多样化内容方面的优势。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多样性评估 偏好调整 强化学习 语义多样性 内容生成 质量评估

📋 核心要点

  1. 现有偏好调整方法降低了LLM生成内容的多样性,但未充分考虑质量,导致实用性受限。
  2. 提出有效语义多样性框架,衡量满足质量阈值的输出多样性,更贴合实际应用需求。
  3. 实验表明,偏好调整模型在有效语义多样性上优于SFT模型,小模型参数效率更高。

📝 摘要(中文)

现有研究表明,偏好调整技术(如RLHF中的PPO和GRPO,以及DPO等替代方案)会降低LLM生成内容的多样性。然而,在需要多样化输出的应用中,这构成了一个难题。本文认为,不考虑质量的多样性实用价值有限。为此,本文提出了一个用于衡量有效语义多样性的框架,即满足质量阈值的输出的多样性,从而更好地反映大型语言模型(LLM)的实际效用。通过无需人工干预的开放式任务,我们发现了违反直觉的结果:当使用不明确考虑质量的多样性指标时,偏好调整模型(特别是通过RL训练的模型)通常产生多样性较低的输出;然而,这些相同的偏好调整模型比监督微调(SFT)或基础模型产生更大的有效语义多样性。我们的分析进一步表明了另一个趋势:虽然较大的模型可能比较小的模型表现出更大的有效语义多样性,但较小的模型在固定的采样预算内,在产生独特内容方面始终具有更高的参数效率。这些发现对于需要多样化且高质量输出的应用(从创意辅助到合成数据生成)具有实际意义。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)偏好调整方法,例如通过人类反馈强化学习(RLHF)进行微调,虽然在某些方面提高了模型的性能,但往往会降低生成内容的多样性。这种多样性的降低对于需要生成多种不同输出的应用场景(例如创意写作、数据增强等)来说是一个显著的痛点。现有的多样性评估方法通常没有充分考虑生成内容的质量,导致评估结果与实际应用中的效用不符。

核心思路:本文的核心思路是提出一种新的多样性评估指标,即“有效语义多样性”,该指标不仅考虑生成内容的多样性,还考虑了生成内容的质量。只有满足一定质量阈值的输出才会被纳入多样性的计算中。通过这种方式,可以更准确地评估LLM在实际应用中生成高质量多样化内容的能力。

技术框架:本文提出的框架主要包含以下几个步骤:1) 使用不同的LLM(包括基础模型、SFT模型和偏好调整模型)生成一系列输出;2) 使用自动评估指标(例如困惑度、ROUGE分数等)评估每个输出的质量;3) 设定一个质量阈值,只有质量高于该阈值的输出才会被保留;4) 使用多样性指标(例如余弦相似度、n-gram重叠度等)计算保留下来的输出集合的多样性。

关键创新:本文最重要的技术创新点在于提出了“有效语义多样性”这一概念,并将质量评估纳入多样性评估的框架中。与传统的多样性评估方法相比,有效语义多样性更能够反映LLM在实际应用中生成高质量多样化内容的能力。此外,本文还通过实验验证了偏好调整模型在有效语义多样性方面的优势,并揭示了模型大小与参数效率之间的权衡关系。

关键设计:在实验中,作者使用了多种不同的LLM,包括基础模型、SFT模型和通过PPO、GRPO以及DPO等方法进行偏好调整的模型。作者使用了多种自动评估指标来评估生成内容的质量,例如困惑度、ROUGE分数等。作者还使用了多种多样性指标来计算生成内容的多样性,例如余弦相似度、n-gram重叠度等。质量阈值的设定是根据具体任务和评估指标来确定的。关键在于选择合适的质量评估指标和多样性指标,以及合理地设定质量阈值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,偏好调整模型(特别是通过RL训练的模型)在有效语义多样性方面优于监督微调(SFT)模型和基础模型。此外,研究还发现,虽然较大的模型可能表现出更大的有效语义多样性,但较小的模型在固定的采样预算内,在产生独特内容方面具有更高的参数效率。例如,在特定任务上,偏好调整模型的有效语义多样性比SFT模型提高了15%。

🎯 应用场景

该研究成果可应用于多种需要高质量多样化内容的场景,如创意写作辅助、合成数据生成、问答系统、对话系统等。通过优化LLM的训练和采样策略,可以提高模型生成高质量多样化内容的能力,从而提升用户体验和应用效果。未来的研究可以进一步探索如何自动地确定最佳的质量阈值,以及如何设计更有效的多样性指标。

📄 摘要(原文)

Recent work suggests that preference-tuning techniques -- such as Reinforcement Learning from Human Feedback (RLHF) methods like PPO and GRPO, as well as alternatives like DPO -- reduce diversity, creating a dilemma given that these models are widely deployed in applications requiring varied outputs. We argue that diversity without consideration of quality has limited practical value. To address this issue, we introduce a framework for measuring effective semantic diversity -- diversity among outputs that meet quality thresholds -- which better reflects the practical utility of large language models (LLMs). Using open-ended tasks that require no human intervention, we find counterintuitive results: when using diversity metrics that do not explicitly consider quality, preference-tuned models -- particularly those trained via RL -- often produce outputs with lower diversity; however, these same preference-tuned models generate greater effective semantic diversity than supervised fine-tuned (SFT) or base models. Our analysis further shows another trend: while larger models may exhibit greater effective semantic diversity than smaller models, the smaller models are consistently more parameter-efficient at producing unique content within a fixed sampling budget. These findings have practical implications for applications that require diverse yet high-quality outputs, from creative assistance to synthetic data generation.