Recovering Diversity Without Losing Alignment: A DPO Recipe for Post-Trained LLMs

作者: Vinay Samuel, Yapei Chang, Mohit Iyyer

分类: cs.CL

发布日期: 2026-05-28

备注: Under Review. 26 pages, 3 figures, 16 tables

🔗 代码/项目: GITHUB

💡 一句话要点

REDIPO：一种用于后训练LLM的DPO方法，在不损失对齐的情况下恢复多样性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多样性恢复 指令微调 直接偏好优化 DPO 对齐 后训练 偏好学习

📋 核心要点

现有后训练方法倾向于使LLM输出收敛到少量标准答案，牺牲了潜在的多样性。
REDIPO通过离线DPO数据构建流程，从基础模型和指令模型中采样并重写响应，构建偏好对，恢复多样性。
实验表明，REDIPO在多个模型上显著提高了答案多样性，同时保持或改善了对齐性能和安全性。

📝 摘要（中文）

许多开放式指令存在多个有效的答案，用户可以从中受益。然而，后训练通常会缩小LLM的输出空间，使其倾向于一小部分规范的响应。我们提出了REDIPO，一种离线DPO数据构建流程，用于在保留指令模型对齐优势的同时，恢复不同的有效答案模式。对于每个提示，REDIPO从基础模型和指令模型中采样响应，使用指令模型重写基础模型响应，过滤候选答案的安全性及指令遵循质量，并构建偏好对，这些偏好对倾向于在具有相似指令遵循奖励的候选答案中选择略微不同的响应。在Qwen3-4B、OLMo-3-7B和LLaMA-3.1-8B上，相对于指令检查点，REDIPO将NoveltyBench的distinct_k分别提高了134%、33%和44%，而DivPO在相同模型上的多样性变化分别为0%、-6%和-4%。这些收益在很大程度上保持了MTBench、IFEval和Arena-Hard的性能，并降低了直接类别HarmBench攻击成功率。消融实验表明，边际多样性配对选择和基础响应重写驱动了多样性增益，而过滤和质量有界配对有助于保持对齐。总的来说，我们的结果表明，可以通过精心构建的偏好数据重新引入来自基础模型生成的多样化有效答案，同时保留后训练的对齐优势。我们发布了我们的代码和数据。

🔬 方法详解

问题定义：大型语言模型（LLM）在经过指令微调后，虽然对齐了人类意图，但往往会损失生成答案的多样性，倾向于给出少量“标准”答案。这限制了LLM在开放式任务中的应用，因为用户可能需要不同的视角或解决方案。现有方法难以在保持对齐的同时有效恢复多样性。

核心思路：REDIPO的核心思路是通过构建高质量的偏好数据集，利用Direct Preference Optimization (DPO) 算法，引导LLM在保证指令遵循和安全性的前提下，生成更多样化的答案。关键在于如何从基础模型中挖掘潜在的多样性，并将其与指令模型的对齐能力相结合。

技术框架：REDIPO包含以下主要阶段：1) 响应采样：从基础模型和指令模型中采样多个响应。2) 响应重写：使用指令模型对基础模型的响应进行重写，以提高其指令遵循能力。3) 响应过滤：根据安全性和指令遵循质量对响应进行过滤，去除不合格的响应。4) 偏好对构建：构建偏好对，其中偏好选择在相似指令遵循奖励下，具有更高边际多样性的响应。5) DPO训练：使用构建的偏好数据集对LLM进行DPO训练。

关键创新：REDIPO的关键创新在于其偏好对构建策略，即“边际多样性配对选择”。与直接最大化多样性不同，REDIPO倾向于选择在指令遵循奖励相似的候选答案中，多样性略高的响应。这种策略避免了牺牲对齐性能来换取多样性，从而实现了在保持对齐的同时恢复多样性的目标。

关键设计：REDIPO的关键设计包括：1) 使用指令模型重写基础模型响应，以提高其指令遵循能力。2) 使用安全性和指令遵循奖励对响应进行过滤，确保数据质量。3) 在构建偏好对时，使用余弦相似度等指标衡量响应的多样性，并选择边际多样性更高的响应。4) 使用DPO算法进行训练，该算法可以直接优化模型的偏好，而无需显式地建模奖励函数。

🖼️ 关键图片

📊 实验亮点

REDIPO在Qwen3-4B、OLMo-3-7B和LLaMA-3.1-8B模型上进行了评估，结果表明，相对于指令检查点，REDIPO将NoveltyBench的distinct_k分别提高了134%、33%和44%。同时，REDIPO在MTBench、IFEval和Arena-Hard等基准测试中保持了与指令模型相当的性能，并降低了HarmBench的攻击成功率，表明REDIPO在提高多样性的同时，保持了对齐性和安全性。

🎯 应用场景

REDIPO可应用于各种需要LLM生成多样化答案的场景，例如头脑风暴、创意写作、问题解决等。通过恢复LLM的多样性，REDIPO可以帮助用户获得更全面的信息和更丰富的灵感，从而提高工作效率和创造力。此外，REDIPO还可以用于个性化推荐系统，根据用户的不同需求和偏好，生成更符合用户期望的答案。

📄 摘要（原文）

Many open-ended instructions have multiple valid answers that users can benefit from seeing, but post-training often narrows an LLM's output space toward a small set of canonical responses. We introduce REDIPO, an offline DPO data-construction pipeline for recovering distinct valid answer modes while preserving the alignment benefits of the instruct model. For each prompt, REDIPO samples responses from both base and instruct models, rewrites base-model responses with the instruct model, filters candidates for safety and instruction-following quality, and builds preference pairs that favor marginally diverse responses among candidates with similar instruction-following reward. Across Qwen3-4B, OLMo-3-7B, and LLaMA-3.1-8B, REDIPO improves NoveltyBench distinct_k by 134%, 33%, and 44% relative to the instruct checkpoints, while DivPO changes diversity by 0%, -6%, and -4% on the same models. These gains largely maintain MTBench, IFEval, and Arena-Hard performance, and reduce direct-category HarmBench attack success rate. Ablations show that marginal-diversity pair selection and base-response rewriting drive the diversity gains, while filtering and quality-bounded pairing help maintain alignment. Overall, our results show that diverse valid answers from base-model generations can be reintroduced through carefully constructed preference data while retaining the alignment benefits of post-training. We release our code and data at https://github.com/vsamuel2003/RiDiPO.

Recovering Diversity Without Losing Alignment: A DPO Recipe for Post-Trained LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理