Interpretable Steering of Large Language Models with Feature Guided Activation Additions

作者: Samuel Soo, Chen Guang, Wesley Teng, Chandrasekaran Balaganesh, Tan Guoxian, Yan Ming

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-01-17 (更新: 2025-04-02)

备注: 9 maintext pages, 13 appendix pages

💡 一句话要点

提出FGAA，通过特征引导激活添加实现对大语言模型的可解释性操控。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 激活操控 可解释性 稀疏自编码器 特征选择

📋 核心要点

现有激活操控方法在影响LLM输出时缺乏精确性和可解释性，难以实现精细化控制。
FGAA在稀疏自编码器的潜在空间中，通过优化选择特征来构建精确的操控向量。
实验表明，FGAA在操控效果和模型连贯性上优于CAA、SAE解码器操控和SAE-TS。

📝 摘要（中文）

有效且可靠地控制大型语言模型（LLM）的行为是一个重大挑战。激活操控方法，即向模型的隐藏状态添加操控向量，是一种很有前景的方法，但现有技术在影响模型输出方面通常缺乏精确性和可解释性。我们引入了特征引导激活添加（FGAA），这是一种新颖的激活操控方法，它利用了对比激活添加（CAA）和稀疏自编码器目标操控（SAE-TS）的见解。通过在稀疏自编码器（SAE）的潜在空间中操作，并采用优化技术来选择所需的SAE特征，FGAA构建了精确的操控向量，从而提供更好的操控效果，同时保持了被操控模型输出的连贯性。在这方面，在Gemma-2-2B和Gemma-2-9B模型上进行的各种操控任务的评估表明，FGAA优于现有的CAA、SAE解码器操控和SAE-TS等操控方法。我们的结果还强调了所有测试的操控方法中，操控规模和通用模型能力之间存在重要的权衡。

🔬 方法详解

问题定义：现有的大语言模型操控方法，如直接添加激活向量，缺乏精确性和可解释性。难以确定哪些神经元或特征对特定行为负责，导致操控效果不佳，且容易破坏模型的连贯性。因此，需要一种更精确、可解释的操控方法，能够在不影响模型通用能力的前提下，引导模型产生期望的行为。

核心思路：FGAA的核心思路是利用稀疏自编码器（SAE）学习到的模型内部的特征表示，在SAE的潜在空间中进行操控。通过选择和组合特定的SAE特征，可以更精确地控制模型的行为，同时保持模型输出的连贯性。这种方法借鉴了CAA和SAE-TS的优点，并在此基础上进行了改进。

技术框架：FGAA的技术框架主要包括以下几个阶段：1) 使用稀疏自编码器（SAE）对LLM的隐藏层激活进行训练，学习LLM内部的特征表示。2) 定义操控目标，例如希望模型生成某种特定的文本。3) 使用优化算法，在SAE的潜在空间中选择一组特征，这些特征的激活与操控目标相关。4) 将选定的特征的激活向量添加到LLM的隐藏层，从而引导模型产生期望的行为。

关键创新：FGAA的关键创新在于：1) 在SAE的潜在空间中进行操控，提高了操控的精确性和可解释性。2) 使用优化算法选择特征，能够自动地找到与操控目标相关的特征，避免了手动选择的困难。3) 结合了CAA和SAE-TS的优点，在操控效果和模型连贯性之间取得了更好的平衡。

关键设计：FGAA的关键设计包括：1) 使用L1正则化训练SAE，以获得稀疏的特征表示。2) 使用梯度下降法优化特征选择，目标是最大化模型生成期望文本的概率。3) 引入一个正则化项，惩罚过大的激活添加，以保持模型输出的连贯性。具体的损失函数和参数设置需要根据具体的任务进行调整。

🖼️ 关键图片

📊 实验亮点

在Gemma-2-2B和Gemma-2-9B模型上，FGAA在各种操控任务中均优于CAA、SAE解码器操控和SAE-TS等基线方法。实验结果表明，FGAA能够更精确地控制模型的行为，同时保持模型输出的连贯性。论文还指出了操控规模和通用模型能力之间的权衡，这为未来的研究提供了重要的指导。

🎯 应用场景

FGAA可应用于多种场景，例如：控制LLM生成特定风格的文本，引导LLM进行特定领域的推理，以及提高LLM在特定任务上的性能。该技术有助于提高LLM的可控性和可靠性，使其更好地服务于人类的需求，例如内容生成、智能客服、教育辅导等。

📄 摘要（原文）

Effective and reliable control over large language model (LLM) behavior is a significant challenge. While activation steering methods, which add steering vectors to a model's hidden states, are a promising approach, existing techniques often lack precision and interpretability in how they influence model outputs. We introduce Feature Guided Activation Additions (FGAA), a novel activation steering method that leverages insights from Contrastive Activation Addition (CAA) and Sparse Autoencoder-Targeted Steering (SAE-TS). By operating in the latent space of a Sparse Autoencoder (SAE) and employing optimization techniques to select desired SAE features, FGAA constructs precise steering vectors that provide better steering effects while maintaining coherence of steered model outputs. In this regard, evaluations on Gemma-2-2B and Gemma-2-9B models across various steering tasks demonstrate that FGAA outperforms existing steering methods of CAA, SAE decoder steering, and SAE-TS. Our results also highlight important trade-offs between steering scale and general model capabilities that are consistent across all tested steering methods.

Interpretable Steering of Large Language Models with Feature Guided Activation Additions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理