Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning
作者: Helena Casademunt, Caden Juang, Adam Karvonen, Samuel Marks, Senthooran Rajamanoharan, Neel Nanda
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-07-22 (更新: 2025-11-09)
💡 一句话要点
提出概念消融微调(CAFT),无需修改训练数据即可引导LLM的分布外泛化。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 分布外泛化 概念消融 微调 可解释性
📋 核心要点
- 现有方法依赖修改训练数据以提升LLM的分布外泛化能力,但数据修改在实践中存在局限性。
- CAFT通过在微调期间消融LLM潜在空间中与不需要概念相关的方向,从而避免模型产生非预期的泛化。
- 实验表明,CAFT在不修改训练数据的情况下,显著减少了LLM的错误对齐响应,且不影响训练集性能。
📝 摘要(中文)
微调大型语言模型(LLM)可能导致意想不到的分布外泛化。解决此问题的标准方法依赖于修改训练数据,例如添加更好地指定预期泛化的数据。然而,这并非总是可行。我们引入了概念消融微调(CAFT),这是一种利用可解释性工具来控制LLM如何从微调中泛化的技术,而无需修改训练数据或使用来自目标分布的数据。给定LLM潜在空间中对应于不需要的概念的一组方向,CAFT通过在微调期间使用线性投影来消融这些概念,从而引导模型远离不需要的泛化。我们成功地将CAFT应用于三个微调任务,包括涌现的不对齐,这是一种LLM在狭窄任务上进行微调后泛化,从而对一般问题给出极其不对齐的响应的现象。在不改变微调数据的情况下,CAFT将不对齐的响应减少了10倍,而不会降低训练分布的性能。总的来说,CAFT代表了一种无需修改训练数据即可引导LLM泛化的新方法。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)微调过程中出现的意外的分布外泛化问题。现有方法主要依赖于修改训练数据,例如增加特定数据来引导模型学习期望的泛化方式。然而,在许多实际场景中,获取或修改训练数据是困难或不可行的,因此需要一种不依赖于数据修改的泛化控制方法。
核心思路:论文的核心思路是利用LLM的可解释性,识别模型内部表示中与不期望的概念相关的方向,并在微调过程中通过消融这些概念来阻止模型学习到不期望的泛化模式。这种方法的核心在于,通过干预模型的内部表示,可以有效地引导模型的泛化行为,而无需改变训练数据。
技术框架:CAFT的技术框架主要包含以下几个步骤:1) 概念识别:利用可解释性工具识别LLM潜在空间中对应于不期望概念的方向。2) 概念消融:在微调过程中,使用线性投影来消融这些概念。具体来说,对于每个需要消融的概念,计算模型激活向量在该概念方向上的投影,然后从激活向量中减去该投影,从而消除该概念的影响。3) 微调训练:使用修改后的激活向量进行标准的微调训练。
关键创新:CAFT的关键创新在于它提供了一种无需修改训练数据即可控制LLM泛化的方法。与传统方法相比,CAFT直接干预模型的内部表示,从而更精确地控制模型的行为。此外,CAFT利用可解释性工具来识别需要消融的概念,这使得该方法具有更高的灵活性和可解释性。
关键设计:CAFT的关键设计包括:1) 概念方向的确定:论文使用现有的可解释性技术来确定LLM潜在空间中与特定概念相关的方向。具体方法可能包括使用自动方法或人工干预。2) 线性投影的实现:论文使用线性投影来实现概念的消融。具体来说,对于每个需要消融的概念,计算模型激活向量在该概念方向上的投影,然后从激活向量中减去该投影。3) 微调过程的优化:论文可能需要调整微调过程中的学习率、批大小等超参数,以获得最佳的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CAFT在三个微调任务上均取得了显著的改进。在涌现的不对齐任务中,CAFT在不修改训练数据的情况下,将错误对齐的响应减少了10倍,同时保持了在训练分布上的性能。这些结果表明,CAFT是一种有效的控制LLM泛化的方法。
🎯 应用场景
CAFT可应用于各种需要控制LLM泛化的场景,例如:1) 避免LLM在特定领域产生不准确或有害的回答。2) 确保LLM在不同任务之间保持一致的行为。3) 提高LLM在对抗性环境中的鲁棒性。该方法具有广泛的应用前景,能够提升LLM的可靠性和安全性。
📄 摘要(原文)
Fine-tuning large language models (LLMs) can lead to unintended out-of-distribution generalization. Standard approaches to this problem rely on modifying training data, for example by adding data that better specify the intended generalization. However, this is not always practical. We introduce Concept Ablation Fine-Tuning (CAFT), a technique that leverages interpretability tools to control how LLMs generalize from fine-tuning, without needing to modify the training data or otherwise use data from the target distribution. Given a set of directions in an LLM's latent space corresponding to undesired concepts, CAFT works by ablating these concepts with linear projections during fine-tuning, steering the model away from unintended generalizations. We successfully apply CAFT to three fine-tuning tasks, including emergent misalignment, a phenomenon where LLMs fine-tuned on a narrow task generalize to give egregiously misaligned responses to general questions. Without any changes to the fine-tuning data, CAFT reduces misaligned responses by 10x without degrading performance on the training distribution. Overall, CAFT represents a novel approach for steering LLM generalization without modifying training data.