Post-training Large Language Models for Diverse High-Quality Responses

作者: Yilei Chen, Souradip Chakraborty, Lorenz Wolf, Yannis Paschalidis, Aldo Pacchiano

分类: cs.CL, cs.AI

发布日期: 2025-09-05 (更新: 2025-10-04)

💡 一句话要点

提出DQO方法，提升大型语言模型后训练阶段生成回复的多样性和质量

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 后训练 强化学习 多样性优化 行列式点过程

📋 核心要点

现有强化学习后训练方法降低了大型语言模型输出的多样性，导致回复过于单一和规范。
DQO方法基于行列式点过程，通过优化回复的语义多样性来提升模型生成高质量且多样化回复的能力。
实验表明，DQO在多个任务上显著提升了语义多样性，同时保持了模型原有的质量水平。

📝 摘要（中文）

强化学习（RL）已成为后训练大型语言模型（LLMs）的常用方法。然而，在提高模型在下游任务上的性能的同时，它通常会降低模型输出的多样性，导致狭隘、规范的回复。现有的增强多样性的方法要么在推理时进行，要么侧重于表面上的差异，存在局限性。我们提出了一种名为DQO（Diversity Quality Optimization）的新型训练方法，该方法基于行列式点过程（DPPs），以联合优化LLM的质量和语义多样性。我们的方法为每个提示采样并嵌入一组回复，然后使用基于核的相似度矩阵的行列式来衡量多样性，将其作为这些回复嵌入所跨越的体积。DQO具有灵活性，可以应用于现有的RL算法之上。在指令跟随、摘要、故事生成和推理任务上的实验表明，我们的方法在不牺牲模型质量的前提下，显著提高了语义多样性。

🔬 方法详解

问题定义：大型语言模型在经过强化学习后训练后，虽然在特定任务上表现提升，但输出回复的多样性显著降低，容易产生重复、刻板的答案。现有方法要么在推理阶段进行干预，要么只关注表面上的差异，无法从根本上解决语义多样性不足的问题。

核心思路：DQO的核心思路是同时优化模型生成回复的质量和语义多样性。通过行列式点过程（DPPs）来衡量回复集合的语义多样性，并将其作为优化目标的一部分，鼓励模型生成更多样化的回复。

技术框架：DQO方法可以看作是在现有强化学习算法之上添加的一个模块。对于每个prompt，模型生成一组回复，然后将这些回复嵌入到向量空间中。计算这些回复嵌入向量的相似度矩阵，并使用该矩阵的行列式来衡量回复集合的多样性。最后，将多样性指标与奖励信号结合起来，共同优化模型。

关键创新：DQO的关键创新在于使用行列式点过程来量化回复集合的语义多样性。行列式点过程能够有效地捕捉集合中元素之间的互斥性，从而保证选择出的回复具有较高的多样性。与传统的基于距离或聚类的方法相比，DPP能够更好地衡量语义层面的多样性。

关键设计：DQO的关键设计包括：1) 如何选择合适的嵌入模型来表示回复的语义信息；2) 如何设计相似度核函数来计算回复之间的相似度；3) 如何平衡质量奖励和多样性奖励之间的权重。论文中使用了预训练的语言模型来生成回复嵌入，并使用了高斯核函数来计算相似度。多样性奖励的权重需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DQO方法在指令跟随、摘要、故事生成和推理等多个任务上，显著提高了模型生成回复的语义多样性，同时保持了模型原有的质量水平。具体而言，DQO在多样性指标上取得了显著提升，并且在人工评估中，生成的回复也更具多样性和创造性。这些结果验证了DQO方法在提升大型语言模型回复多样性方面的有效性。

🎯 应用场景

DQO方法可广泛应用于需要大型语言模型生成多样化高质量回复的场景，例如对话系统、内容生成、创意写作等。通过提升回复的多样性，可以改善用户体验，提高内容生成的丰富性和创新性，并促进人机交互的自然性和流畅性。该方法还有助于减少模型输出的偏见和刻板印象。

📄 摘要（原文）

Reinforcement learning (RL) has emerged as a popular method for post-training large language models (LLMs). While improving the model's performance on downstream tasks, it often reduces the model's output diversity, leading to narrow, canonical responses. Existing methods to enhance diversity are limited, either by operating at inference time or by focusing on surface-level differences. We propose a novel training method named DQO (Diversity Quality Optimization) based on determinantal point processes (DPPs) to jointly optimize LLMs for quality and semantic diversity. Our approach samples and embeds a group of responses for each prompt, then uses the determinant of a kernel-based similarity matrix to measure diversity as the volume spanned by the embeddings of these responses. DQO is flexible and can be applied on top of existing RL algorithms. Experiments across instruction-following, summarization, story generation, and reasoning tasks demonstrate that our method substantially improves semantic diversity without sacrificing model quality.

Post-training Large Language Models for Diverse High-Quality Responses

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理