Jointly Reinforcing Diversity and Quality in Language Model Generations

📄 arXiv: 2509.02534v1 📥 PDF

作者: Tianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel Khashabi, Jason Weston, Jack Lanchantin, Tianlu Wang

分类: cs.CL, cs.LG

发布日期: 2025-09-02

备注: 29 pages, 11 figures


💡 一句话要点

提出DARLING框架,联合强化语言模型生成的多样性和质量,提升创造性任务表现。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 强化学习 多样性 自然语言生成 创造性任务

📋 核心要点

  1. 现有语言模型后训练侧重准确性,牺牲了生成内容的多样性,限制了其在创造性任务中的应用。
  2. DARLING框架通过学习到的配分函数衡量语义多样性,并将其与质量奖励结合,进行联合优化。
  3. 实验表明,DARLING在指令跟随、创意写作和竞赛数学等任务中,均优于仅优化质量的基线方法。

📝 摘要(中文)

大型语言模型(LM)的后训练通常优先考虑准确性和有用性,但牺牲了多样性。这种做法虽然提高了响应质量,但也锐化了输出分布,限制了想法的范围,降低了LM在头脑风暴、故事讲述或问题解决等创造性和探索性任务中的效用。本文提出了多样性感知强化学习(DARLING)框架,该框架联合优化响应质量和语义多样性。DARLING的核心是引入一个学习到的配分函数,以衡量超出表面词汇变化的多样性。然后,在在线强化学习期间,将这种多样性信号与质量奖励相结合,鼓励模型生成高质量且独特的输出。在多个模型系列和规模上的实验表明,DARLING可以推广到两种模式:不可验证的任务(指令跟随和创意写作)和可验证的任务(竞赛数学)。在第一种设置的五个基准测试中,DARLING始终优于仅关注质量的强化学习基线,产生更高质量和新颖性的输出。在第二种设置中,DARLING实现了更高的pass@1(解决方案质量)和pass@k(解决方案多样性)。最引人注目的是,显式地优化多样性可以促进在线强化学习中的探索,从而产生更高质量的响应。

🔬 方法详解

问题定义:现有大型语言模型在经过后训练后,虽然提升了生成文本的质量和准确性,但往往会牺牲生成内容的多样性。这使得模型在需要创造性和探索性的任务中表现不佳,例如头脑风暴、故事创作等。现有方法通常只关注质量奖励,忽略了多样性的重要性。

核心思路:DARLING的核心思路是同时优化生成文本的质量和多样性。通过引入一个可学习的配分函数来衡量生成文本的语义多样性,并将其作为一个奖励信号与质量奖励相结合,从而引导模型生成既高质量又具有新颖性的内容。这种联合优化的方式鼓励模型探索更广阔的生成空间。

技术框架:DARLING采用在线强化学习框架。整体流程如下:1) 模型生成文本;2) 使用质量奖励函数评估生成文本的质量;3) 使用学习到的配分函数评估生成文本的多样性;4) 将质量奖励和多样性奖励结合,作为总奖励信号;5) 使用强化学习算法(如PPO)更新模型参数,以最大化总奖励。

关键创新:DARLING的关键创新在于引入了可学习的配分函数来衡量生成文本的语义多样性。与传统的基于词汇重叠的度量方法不同,配分函数能够捕捉更深层次的语义信息,从而更准确地评估生成文本的多样性。此外,DARLING将多样性作为奖励信号显式地引入强化学习过程中,引导模型主动探索多样化的生成空间。

关键设计:DARLING的关键设计包括:1) 配分函数的具体形式(未知,论文中未详细描述);2) 质量奖励函数的选择(可以使用现有的奖励模型);3) 多样性奖励和质量奖励的权重比例;4) 强化学习算法的选择(论文中使用PPO)。这些参数需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DARLING在多个基准测试中均取得了显著的性能提升。在不可验证的任务(如指令跟随和创意写作)中,DARLING始终优于仅关注质量的强化学习基线,生成更高质量和新颖性的输出。在可验证的任务(如竞赛数学)中,DARLING实现了更高的pass@1(解决方案质量)和pass@k(解决方案多样性)。尤其值得注意的是,显式地优化多样性可以促进在线强化学习中的探索,从而产生更高质量的响应。

🎯 应用场景

DARLING框架可应用于各种需要创造性和探索性的自然语言生成任务,例如:头脑风暴、故事创作、问题解决、对话生成等。通过提升生成内容的多样性,可以帮助用户获得更丰富的灵感和更全面的解决方案。该研究对于提升语言模型在实际应用中的价值具有重要意义。

📄 摘要(原文)

Post-training of Large Language Models (LMs) often prioritizes accuracy and helpfulness at the expense of diversity. This creates a tension: while post-training improves response quality, it also sharpens output distributions and reduces the range of ideas, limiting the usefulness of LMs in creative and exploratory tasks such as brainstorming, storytelling, or problem solving. We address this challenge with Diversity-Aware Reinforcement Learning (DARLING), a framework that jointly optimizes for response quality and semantic diversity. At its core, DARLING introduces a learned partition function to measure diversity beyond surface-level lexical variations. This diversity signal is then combined with a quality reward during online reinforcement learning, encouraging models to generate outputs that are both high-quality and distinct. Experiments across multiple model families and sizes show that DARLING generalizes to two regimes: non-verifiable tasks (instruction following and creative writing) and verifiable tasks (competition math). On five benchmarks in the first setting, DARLING consistently outperforms quality-only RL baselines, producing outputs that are simultaneously of higher quality and novelty. In the second setting, DARLING achieves higher pass@1 (solution quality) and pass@k (solution variety). Most strikingly, explicitly optimizing for diversity catalyzes exploration in online RL, which manifests itself as higher-quality responses.