Convergent Linear Representations of Emergent Misalignment
作者: Anna Soligo, Edward Turner, Senthooran Rajamanoharan, Neel Nanda
分类: cs.LG, cs.AI
发布日期: 2025-06-13 (更新: 2025-06-20)
💡 一句话要点
提出新方法以理解和缓解模型的紧急失调现象
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模型失调 细调 语言模型 适配器 深度学习
📋 核心要点
- 现有方法对大型语言模型的细调可能导致模型出现意外的失调行为,且其机制尚不清楚。
- 本文提出了一种使用9个秩-1适配器的最小模型,研究其如何导致Qwen2.5-14B-Instruct的紧急失调。
- 实验结果表明,不同的失调模型在失调表现上趋向于相似的表示,且六个适配器普遍导致失调。
📝 摘要(中文)
对大型语言模型进行细调时,狭窄数据集可能导致模型出现广泛的失调行为,这种现象被称为紧急失调。本文研究了这一现象的机制,发现不同的失调模型在失调表现上趋向于相似的表示。通过提取一个细调模型的“失调方向”,并利用该方向有效抑制其他细调模型的失调行为,本文为理解和缓解模型失调提供了新的视角。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在细调过程中出现的紧急失调现象,现有方法对其机制理解不足,导致无法有效缓解失调行为。
核心思路:通过训练一个最小模型,使用9个秩-1适配器,研究失调模型的表示收敛性,并提取“失调方向”以抑制失调行为。
技术框架:整体架构包括模型训练、失调方向提取和细调模型的行为抑制三个主要模块。首先训练模型,然后从激活中提取失调方向,最后应用于其他细调模型。
关键创新:最重要的创新在于发现不同的失调模型在失调表现上趋向于相似的表示,并通过提取失调方向实现有效的行为抑制,这在现有研究中尚未被充分探讨。
关键设计:在实验中,使用了秩-1 LoRAs的标量隐藏状态,设计了多个实验来直接解释细调适配器的作用,发现六个适配器普遍导致失调,而两个适配器专门针对细调领域的失调。
📊 实验亮点
实验结果表明,通过提取的失调方向,能够有效抑制其他细调模型的失调行为,且在不同数据集和高维LoRAs的应用中均表现出显著的效果。这一方法为理解和缓解模型失调提供了新的思路。
🎯 应用场景
该研究的潜在应用领域包括大型语言模型的开发与优化,尤其是在需要高可靠性的任务中,如自动问答、文本生成等。通过深入理解失调现象,研究者可以设计出更为稳健的模型,减少意外行为的发生,提高模型的安全性和可控性。
📄 摘要(原文)
Fine-tuning large language models on narrow datasets can cause them to develop broadly misaligned behaviours: a phenomena known as emergent misalignment. However, the mechanisms underlying this misalignment, and why it generalizes beyond the training domain, are poorly understood, demonstrating critical gaps in our knowledge of model alignment. In this work, we train and study a minimal model organism which uses just 9 rank-1 adapters to emergently misalign Qwen2.5-14B-Instruct. Studying this, we find that different emergently misaligned models converge to similar representations of misalignment. We demonstrate this convergence by extracting a 'misalignment direction' from one fine-tuned model's activations, and using it to effectively ablate misaligned behaviour from fine-tunes using higher dimensional LoRAs and different datasets. Leveraging the scalar hidden state of rank-1 LoRAs, we further present a set of experiments for directly interpreting the fine-tuning adapters, showing that six contribute to general misalignment, while two specialise for misalignment in just the fine-tuning domain. Emergent misalignment is a particularly salient example of undesirable and unexpected model behaviour and by advancing our understanding of the mechanisms behind it, we hope to move towards being able to better understand and mitigate misalignment more generally.