Annotations Mitigate Post-Training Mode Collapse
作者: Jacob Mitchell Springer, Madhu Advani, Lukas Aichberger, Arwen Bradley, Eran Malach, Omid Saremi, Sinead Williamson, Preetum Nakkiran, Etai Littwin, Aditi Raghunathan
分类: cs.CL
发布日期: 2026-05-11
备注: 21 pages, 8 figures, 11 tables. Accepted at ICML 2026
💡 一句话要点
提出标注锚定训练(Annotation-Anchored Training)以缓解后训练中的语义模式坍缩问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 监督微调 语义模式坍缩 预训练 指令遵循 语义多样性 标注锚定训练
📋 核心要点
- 核心问题:监督微调(SFT)导致模型偏向低熵数据,引发语义模式坍缩,且该现象随模型规模增大而愈发严重,损害了预训练阶段积累的语义多样性。
- 方法要点:提出标注锚定训练,通过在预训练阶段引入语义标注,并在后训练阶段强制保持标注分布,利用标注作为引导生成的锚点,实现指令遵循与多样性的平衡。
- 实验效果:该方法有效缓解了语义坍缩,在保持指令遵循能力的同时,将多样性坍缩程度降低至传统SFT的1/6,并展现出良好的规模扩展性。
📝 摘要(中文)
后训练(通过监督微调)虽能提升模型的指令遵循能力,但往往会导致语义模式坍缩,即模型偏向低熵的微调数据,从而牺牲了预训练阶段的高熵分布。研究发现,这种权衡关系随模型规模扩大而加剧。为弥合这一语义多样性鸿沟,本文提出了“标注锚定训练”(Annotation-Anchored Training)。该方法通过在预训练阶段将文档与语义标注配对,构建反映预训练数据全貌的丰富标注分布,并在后训练阶段保持该分布。在推理时,通过采样多样化的标注作为引导生成的“锚点”,成功将预训练的语义丰富性迁移至后训练模型中。实验表明,该方法可使模型的多样性坍缩程度降低至传统SFT模型的1/6,且性能随规模扩大而提升。
🔬 方法详解
问题定义:论文旨在解决大语言模型在后训练(Post-training)阶段普遍存在的“语义模式坍缩”(Semantic Mode Collapse)问题。现有SFT方法倾向于拟合特定风格或低熵的指令集,导致模型丧失了预训练阶段所具备的广泛语义覆盖能力,且这种负面影响随模型参数量增加而加剧。
核心思路:核心思想是将“语义控制”显式化。通过在预训练阶段引入语义标注(Annotations),将文档与描述其语义特征的标注绑定,使得模型学会根据标注条件生成内容,从而在后训练阶段通过约束标注分布来保留预训练的多样性。
技术框架:整体流程分为两个阶段:首先是“标注增强预训练”,在预训练语料中加入语义标注,使模型学习到标注与文档内容的映射关系;其次是“标注锚定后训练”,在微调过程中保持标注的分布特性,确保模型在学习指令遵循的同时,不会偏离预训练的语义空间。
关键创新:最重要的创新在于将语义多样性转化为可控的标注分布问题。通过在推理时采样多样化的标注作为“锚点”(Anchors),模型能够被引导生成符合特定指令但又具备预训练广度的输出,实现了指令遵循与多样性的解耦。
关键设计:该方法依赖于高质量的语义标注生成机制,确保标注能够覆盖预训练数据的全貌。在训练过程中,通过对标注分布的显式建模与约束,防止了模型在微调阶段对特定数据模式的过度拟合,从而在保持指令遵循性能的同时,显著提升了生成结果的语义熵。
🖼️ 关键图片
📊 实验亮点
实验结果显示,采用标注锚定训练的模型在多样性指标上表现优异,其语义坍缩程度仅为传统SFT模型的1/6。此外,该方法展现出极佳的规模扩展性,随着模型参数量的增加,其在保持指令遵循能力的同时,对语义多样性的维护效果愈发显著,优于现有的多种正则化微调方案。
🎯 应用场景
该方法适用于需要兼顾指令遵循能力与生成多样性的各类大语言模型开发场景,特别是在创意写作、开放域对话及复杂推理任务中。通过引入标注锚定,开发者可以更精细地控制模型输出的风格与语义广度,有效提升模型在长尾任务上的表现,具有极高的工业应用价值。
📄 摘要(原文)
Post-training (via supervised fine-tuning) improves instruction-following, but often induces semantic mode collapse by biasing models toward low-entropy fine-tuning data at the expense of the high-entropy pretraining distribution. Crucially, we find this trade-off worsens with scale. To close this semantic diversity gap, we propose annotation-anchored training, a principled method that enables models to adopt the preference-following behaviors of post-training without sacrificing the inherent diversity of pretraining. Our approach is simple: we pretrain on documents paired with semantic annotations, inducing a rich annotation distribution that reflects the full breadth of pretraining data, and we preserve this distribution during post-training. This lets us sample diverse annotations at inference time and use them as anchors to guide generation, effectively transferring pretraining's semantic richness into post-trained models. We find that models trained with annotation-anchored training can attain $6 \times$ less diversity collapse than models trained with SFT, and improve with scale.