Where does output diversity collapse in post-training?

作者: Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-17

💡 一句话要点

揭示后训练语言模型输出多样性崩溃的根源在于数据构成而非推理方式

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型 后训练 输出多样性 数据构成 思维链 蒸馏 泛化能力

📋 核心要点

现有研究未能充分区分后训练方法、训练数据构成以及生成格式对语言模型输出多样性的影响。
该研究通过追踪不同后训练分支在多个任务上的输出多样性，揭示了数据构成在多样性崩溃中的关键作用。
实验表明，多样性崩溃主要由训练数据决定，且无法仅通过推理时的方法来解决。

📝 摘要（中文）

后训练语言模型相比其基础模型，输出的多样性有所降低。这种输出多样性崩溃削弱了依赖多样化样本的推理时扩展方法，并可能导致模型在创造性和价值导向任务上的输出同质化。以往研究将崩溃归因于特定的后训练方法，但没有区分训练数据构成、方法本身以及生成格式与模型权重的作用。本文通过Olmo 3的三个并行后训练分支（Think、Instruct和RL-Zero），跨越15个任务和四种文本多样性指标，追踪了输出多样性。研究发现，崩溃的位置与数据构成相关：Think分支在监督微调阶段损失了最多的语义多样性，DPO在Instruct中的影响大于Think。在Think模型中抑制推理时的思维链推理会降低困难任务的准确性，但答案级别的多样性保持不变，表明崩溃是由训练数据嵌入到模型权重中，而不是由生成格式强加的。将六个可验证任务的多样性损失分解为质量控制部分（去除不正确的输出）和残余部分（正确输出之间的真正缩小）表明，这种分解是任务相关的，并且Think模型比Instruct保留了更多的正确答案多样性，尽管总体上崩溃更多。研究结果表明，多样性崩溃是在训练期间由数据构成决定的，不能仅在推理时解决。

🔬 方法详解

问题定义：论文旨在解决后训练语言模型输出多样性降低的问题。现有方法通常将此问题归因于特定的后训练技术，而忽略了训练数据本身的影响。这种多样性崩溃会损害依赖多样化样本的推理时扩展方法，并可能导致模型在创造性任务上的输出同质化。

核心思路：论文的核心思路是通过系统地分析不同后训练流程（Think, Instruct, RL-Zero）在不同任务上的输出多样性变化，来区分训练数据构成、后训练方法和生成格式对多样性崩溃的影响。通过这种方式，确定导致多样性崩溃的关键因素。

技术框架：该研究使用Olmo 3作为基础模型，构建了三个并行的后训练分支：Think（思维链蒸馏）、Instruct（广泛的多源数据）和RL-Zero。在15个任务上，使用四种文本多样性指标（具体指标未知）来评估每个分支在不同训练阶段的输出多样性。此外，还设计实验来区分质量控制（去除错误输出）和残余多样性（正确输出之间的差异）。

关键创新：该研究的关键创新在于它将输出多样性崩溃的根源追溯到训练数据的构成，而不是仅仅归咎于后训练方法或生成格式。通过分解多样性损失，区分了由于去除错误答案而导致的多样性减少，以及由于模型输出同质化而导致的真正多样性减少。

关键设计：研究的关键设计包括：1) 构建三个具有不同数据构成和训练方法的后训练分支；2) 使用多种文本多样性指标来全面评估输出多样性；3) 设计实验来分解多样性损失，区分质量控制和残余多样性；4) 通过抑制思维链推理来验证多样性崩溃是否嵌入在模型权重中。

🖼️ 关键图片

📊 实验亮点

研究发现，Think分支在监督微调阶段损失了最多的语义多样性，DPO在Instruct中的影响大于Think。抑制思维链推理虽然降低了困难任务的准确性，但答案级别的多样性保持不变，表明多样性崩溃嵌入在模型权重中。Think模型比Instruct保留了更多的正确答案多样性，尽管总体上崩溃更多。

🎯 应用场景

该研究成果可应用于改进后训练语言模型的训练策略，以保持或提升输出多样性，从而提高模型在创造性任务、开放式生成任务以及需要多样化样本的推理时扩展方法中的性能。此外，该研究对于理解和缓解语言模型中的偏见和同质化问题具有重要意义。

📄 摘要（原文）

Post-trained language models produce less varied outputs than their base counterparts. This output diversity collapse undermines inference-time scaling methods that rely on varied samples, and risks homogenizing model outputs on creative and value-laden tasks. Prior work attributes collapse to specific post-training methods, without separating the role of training data composition from the method, or the generation format from the model weights. We trace output diversity through three parallel post-training lineages of Olmo 3, Think (chain-of-thought distillation), Instruct (broad multi-source data), and RL-Zero, across 15 tasks and four text diversity metrics. We find that the location of collapse co-varies with data composition: the Think lineage loses most semantic diversity at supervised fine-tuning, and the effect of DPO is larger in Instruct than in Think. Suppressing chain-of-thought reasoning at inference in Think models drops accuracy on hard tasks, yet leaves answer-level diversity unchanged, showing that the collapse is embedded in the model weights by training data, not imposed by the generation format. Decomposing diversity loss on six verifiable tasks into a quality-control component (removal of incorrect outputs) and a residual component (genuine narrowing among correct outputs) reveals that the split is task-dependent, and Think models retain more correct-answer diversity than Instruct despite collapsing more in aggregate. Our results indicate that diversity collapse is determined during training by data composition and cannot be addressed at inference time alone.

Where does output diversity collapse in post-training?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理