Enabling Precise Topic Alignment in Large Language Models Via Sparse Autoencoders

📄 arXiv: 2506.12576v2 📥 PDF

作者: Ananya Joshi, Celia Cintas, Skyler Speakman

分类: cs.CL, cs.AI

发布日期: 2025-06-14 (更新: 2025-06-28)


💡 一句话要点

提出基于稀疏自编码器的LLM主题对齐方法,无需微调即可实现精确控制。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 主题对齐 稀疏自编码器 可解释性 神经元操控

📋 核心要点

  1. 现有方法只能将LLM输出对齐到预先确定的主题,且需要参数调整,缺乏灵活性和通用性。
  2. 该方法利用SAE的可观测和修改特性,通过强调与主题相关的神经元来调整LLM的输出。
  3. 实验表明,该方法在多个数据集和LLM上均能有效实现主题对齐,且优于微调方法。

📝 摘要(中文)

本文提出了一种利用稀疏自编码器(SAE)实现大型语言模型(LLM)主题对齐的方法。该方法利用SAE神经元对应于可解释概念的特性,通过语义相似度对SAE神经元进行评分,并根据评分结果修改SAE层的输出,从而强调与目标主题对齐的神经元。实验结果表明,该方法在多个公开主题数据集(包括Amazon评论、医学和谄媚)上,针对GPT2和Gemma等开源LLM及其SAE组合,均能有效实现主题对齐。与微调相比,该方法在医学提示对齐任务中表现出更高的语言可接受度(0.5 vs. 0.25),更短的训练时间(62s vs. 333.6s),以及可接受的推理时间(+0.00092s/token)。代码已开源。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在生成文本时,难以精确控制其输出的主题。虽然可以通过微调来引导LLM生成特定主题的内容,但微调需要大量的计算资源和时间,并且对于不同的主题需要分别进行微调。此外,已有的基于稀疏自编码器(SAE)的方法虽然可以对齐到特定主题,但需要预先确定主题,并且需要进行参数调整,缺乏通用性和灵活性。

核心思路:本文的核心思路是利用SAE将LLM的内部表示分解为对应于可解释概念的神经元,然后通过修改这些神经元的激活程度来控制LLM的输出主题。具体来说,首先计算每个SAE神经元与目标主题的语义相似度,然后根据相似度对神经元进行加权,最后通过调整SAE层的输出来引导LLM生成与目标主题相关的文本。

技术框架:该方法主要包含两个阶段:1) 神经元评分阶段:计算每个SAE神经元与目标主题文本的语义相似度,得到每个神经元的主题相关性得分。2) 输出修改阶段:根据神经元的主题相关性得分,修改SAE层的输出。具体来说,将SAE层的输出与神经元得分进行加权,从而增强与目标主题相关的神经元的激活程度,抑制与目标主题无关的神经元的激活程度。

关键创新:该方法最重要的创新点在于,它能够利用SAE的可解释性,通过修改LLM内部表示的方式来实现主题对齐,而无需对LLM进行微调。与传统的微调方法相比,该方法更加高效和灵活,可以快速地对齐到不同的主题。此外,该方法还能够利用SAE的可观测性,分析LLM内部表示与主题之间的关系,从而更好地理解LLM的工作机制。

关键设计:在神经元评分阶段,可以使用各种语义相似度计算方法,例如余弦相似度、点积相似度等。在输出修改阶段,可以使用不同的加权策略,例如线性加权、指数加权等。此外,还可以对SAE的结构进行调整,例如增加SAE的层数、调整SAE的神经元数量等,以提高主题对齐的性能。论文中使用了余弦相似度进行神经元评分,并采用线性加权的方式修改SAE层的输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个公开主题数据集上均能有效实现主题对齐。在医学提示对齐任务中,与微调相比,该方法提高了语言可接受度(0.5 vs. 0.25),缩短了训练时间(62s vs. 333.6s),并且推理时间仅增加了+0.00092s/token。这些结果表明,该方法在效率和性能上均优于传统的微调方法。

🎯 应用场景

该研究成果可应用于多种场景,例如:内容生成领域,可以控制LLM生成特定主题的文章、故事等;对话系统领域,可以引导LLM生成与用户意图相关的回复;信息过滤领域,可以利用该方法识别和过滤与特定主题相关的文本。此外,该方法还可以用于分析LLM内部表示与主题之间的关系,从而更好地理解LLM的工作机制。

📄 摘要(原文)

Recent work shows that Sparse Autoencoders (SAE) applied to large language model (LLM) layers have neurons corresponding to interpretable concepts. These SAE neurons can be modified to align generated outputs, but only towards pre-identified topics and with some parameter tuning. Our approach leverages the observational and modification properties of SAEs to enable alignment for any topic. This method 1) scores each SAE neuron by its semantic similarity to an alignment text and uses them to 2) modify SAE-layer-level outputs by emphasizing topic-aligned neurons. We assess the alignment capabilities of this approach on diverse public topic datasets including Amazon reviews, Medicine, and Sycophancy, across the currently available open-source LLMs and SAE pairs (GPT2 and Gemma) with multiple SAEs configurations. Experiments aligning to medical prompts reveal several benefits over fine-tuning, including increased average language acceptability (0.25 vs. 0.5), reduced training time across multiple alignment topics (333.6s vs. 62s), and acceptable inference time for many applications (+0.00092s/token). Our open-source code is available at github.com/IBM/sae-steering.