Value Drifts: Tracing Value Alignment During LLM Post-Training
作者: Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Vered Shwartz, Siva Reddy
分类: cs.CL, cs.CY, cs.LG
发布日期: 2025-10-30
💡 一句话要点
揭示LLM后训练阶段价值观漂移,探究价值观对齐的学习动态过程
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 大型语言模型 价值观对齐 后训练 监督微调 偏好优化 价值观漂移 训练动态
📋 核心要点
- 现有工作主要评估完全训练模型的价值观对齐,忽略了模型学习价值观的动态过程,无法指导训练。
- 该研究通过解耦后训练算法和数据集的影响,分析了LLM在后训练阶段价值观对齐的产生方式和时间。
- 实验表明,监督微调(SFT)阶段确立模型价值观,偏好优化阶段很少改变,且不同偏好优化算法影响价值观对齐结果。
📝 摘要(中文)
随着大型语言模型(LLM)在社会中扮演日益重要的角色,它们越来越多地面临需要不仅利用其通用知识,还要与特定人类价值体系对齐的问题。因此,研究LLM与人类价值观的对齐已成为一个至关重要的研究领域。然而,先前的工作主要集中在评估完全训练好的模型的对齐情况,忽略了模型学习表达人类价值观的训练动态过程。本文研究了在模型后训练过程中,价值观对齐是如何以及在哪个阶段产生的。我们的分析解耦了后训练算法和数据集的影响,测量了训练期间价值观漂移的幅度和时间。通过对不同规模的Llama-3和Qwen-3模型以及流行的监督微调(SFT)和偏好优化数据集和算法进行实验,我们发现SFT阶段通常确立了模型的价值观,而随后的偏好优化很少重新对齐这些价值观。此外,使用能够控制价值观的合成偏好数据集,我们发现即使偏好数据保持不变,不同的偏好优化算法也会导致不同的价值观对齐结果。我们的发现为价值观在后训练期间如何学习提供了可操作的见解,并有助于为改进模型与人类价值观的对齐提供数据管理以及偏好优化模型的选择和算法。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在后训练阶段,价值观对齐是如何以及在哪个阶段产生的这一问题。现有方法主要关注训练完成后的模型评估,忽略了训练过程中的动态变化,无法有效指导模型训练,使其更好地与人类价值观对齐。
核心思路:论文的核心思路是通过解耦后训练算法和数据集的影响,深入分析监督微调(SFT)和偏好优化等不同阶段对模型价值观的影响。通过控制变量,研究不同算法和数据集对价值观对齐的影响,从而揭示价值观学习的动态过程。
技术框架:整体框架包括以下几个主要阶段:1) 选择不同规模的LLM(Llama-3和Qwen-3);2) 使用不同的监督微调(SFT)数据集和偏好优化数据集;3) 使用不同的偏好优化算法;4) 设计合成偏好数据集,用于控制价值观;5) 测量和分析训练过程中价值观的漂移情况。
关键创新:论文的关键创新在于:1) 首次系统性地研究了LLM后训练阶段价值观对齐的动态过程;2) 通过解耦算法和数据集的影响,更清晰地揭示了不同训练阶段对价值观的影响;3) 使用合成偏好数据集,实现了对价值观的精确控制,从而更深入地理解了偏好优化算法对价值观的影响。
关键设计:论文的关键设计包括:1) 使用Llama-3和Qwen-3等不同规模的模型,以研究模型规模对价值观学习的影响;2) 选择具有代表性的SFT和偏好优化数据集,以覆盖不同的训练场景;3) 设计合成偏好数据集,通过控制数据集中的价值观分布,研究算法对特定价值观的学习效果;4) 精心设计的评估指标,用于量化模型在不同阶段的价值观漂移情况。
🖼️ 关键图片
📊 实验亮点
实验结果表明,监督微调(SFT)阶段通常确立了模型的价值观,而随后的偏好优化阶段很少重新对齐这些价值观。此外,即使偏好数据保持不变,不同的偏好优化算法也会导致不同的价值观对齐结果。这些发现为优化LLM的训练过程,使其更好地与人类价值观对齐提供了重要的指导。
🎯 应用场景
该研究成果可应用于提升LLM的价值观对齐,使其更好地服务于人类社会。通过了解不同训练阶段和算法对价值观的影响,可以指导数据管理和算法选择,从而训练出更符合人类价值观的LLM。这在对话系统、内容生成、决策支持等领域具有重要意义。
📄 摘要(原文)
As LLMs occupy an increasingly important role in society, they are more and more confronted with questions that require them not only to draw on their general knowledge but also to align with certain human value systems. Therefore, studying the alignment of LLMs with human values has become a crucial field of inquiry. Prior work, however, mostly focuses on evaluating the alignment of fully trained models, overlooking the training dynamics by which models learn to express human values. In this work, we investigate how and at which stage value alignment arises during the course of a model's post-training. Our analysis disentangles the effects of post-training algorithms and datasets, measuring both the magnitude and time of value drifts during training. Experimenting with Llama-3 and Qwen-3 models of different sizes and popular supervised fine-tuning (SFT) and preference optimization datasets and algorithms, we find that the SFT phase generally establishes a model's values, and subsequent preference optimization rarely re-aligns these values. Furthermore, using a synthetic preference dataset that enables controlled manipulation of values, we find that different preference optimization algorithms lead to different value alignment outcomes, even when preference data is held constant. Our findings provide actionable insights into how values are learned during post-training and help to inform data curation, as well as the selection of models and algorithms for preference optimization to improve model alignment to human values.