Qwen-Scope: Turning Sparse Features into Development Tools for Large Language Models
作者: Boyi Deng, Xu Wang, Yaoning Wang, Yu Wan, Yubo Ma, Baosong Yang, Haoran Wei, Jialong Tang, Huan Lin, Ruize Gao, Tianhao Li, Qian Cao, Xuancheng Ren, Xiaodong Deng, An Yang, Fei Huang, Dayiheng Liu, Jingren Zhou
分类: cs.CL, cs.LG
发布日期: 2026-05-12
💡 一句话要点
Qwen-Scope:将稀疏特征转化为大语言模型开发工具
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 可解释性 稀疏自编码器 模型开发 Qwen 推理时指导 后训练优化
📋 核心要点
- 大语言模型内部决策过程不透明,限制了对其检查、控制和改进的能力,可解释性研究亟待发展。
- 论文提出Qwen-Scope,一个基于Qwen模型系列的开源稀疏自编码器(SAE)套件,用于分解模型激活。
- 实验表明,SAE可用于推理时指导、评估分析、数据中心工作流程和后训练优化,提升模型性能。
📝 摘要(中文)
大语言模型在各种任务中展现了卓越的能力,但其内部决策过程在很大程度上仍然不透明,这限制了我们检查、控制和系统性改进它们的能力。这种不透明性推动了可解释性研究的发展,其中稀疏自编码器(SAEs)成为将模型激活分解为稀疏、可解释的特征表示的最有希望的工具之一。我们介绍了Qwen-Scope,这是一个基于Qwen模型系列的开源SAE套件,包含Qwen3和Qwen3.5系列的7个模型变体的14个SAE组,涵盖了稠密和混合专家架构。基于这些SAE,我们展示了SAE不仅可以用于事后分析,还可以作为模型开发的实用接口,包括:(i)推理时指导,其中SAE特征方向控制语言、概念和偏好,而无需修改模型权重;(ii)评估分析,其中激活的SAE特征为基准冗余和能力覆盖提供表示级别的代理;(iii)以数据为中心的工作流程,其中SAE特征支持多语言毒性分类和面向安全的数据合成;(iv)后训练优化,其中SAE衍生的信号被纳入监督微调和强化学习目标,以减轻不良行为,如代码切换和重复。总而言之,这些结果表明,SAE不仅可以作为事后分析工具,还可以作为可重用的表示级别接口,用于诊断、控制、评估和改进大型语言模型。通过开源Qwen-Scope,我们旨在支持可解释性研究,并加速将模型内部机制与下游行为联系起来的实际工作流程。
🔬 方法详解
问题定义:现有大语言模型的内部决策过程不透明,难以理解和控制,阻碍了模型改进和安全应用。现有的事后分析方法难以直接用于模型开发和优化。
核心思路:利用稀疏自编码器(SAE)将模型内部的激活分解为稀疏且可解释的特征表示。这些特征可以作为模型内部状态的代理,用于指导模型行为、评估模型能力、优化训练数据和改进训练目标。通过将SAE与模型开发流程相结合,实现对大语言模型的更精细控制和优化。
技术框架:Qwen-Scope包含多个基于Qwen模型系列的SAE。整体流程包括:1) 使用SAE对Qwen模型的激活进行编码,提取稀疏特征;2) 利用这些稀疏特征进行推理时指导,通过调整特征激活来控制模型行为;3) 使用特征激活作为评估指标,分析模型在不同任务上的表现;4) 基于特征进行数据筛选和合成,优化训练数据;5) 将特征信息融入到微调和强化学习目标中,优化模型行为。
关键创新:该研究的关键创新在于将SAE从传统的后验分析工具转变为大语言模型开发的实用接口。通过将SAE特征与模型开发流程的各个环节相结合,实现了对模型行为的更直接控制和优化。此外,开源的Qwen-Scope套件为后续研究提供了便利。
关键设计:SAE的训练目标是最小化重构误差,同时鼓励特征的稀疏性。论文中使用了不同的SAE架构和训练策略,以适应不同的Qwen模型变体。在推理时指导方面,通过调整特定特征的激活强度来控制模型输出。在数据合成方面,利用SAE特征来生成具有特定属性的数据样本。在后训练优化方面,将SAE特征作为正则化项添加到损失函数中,以抑制不良行为。
🖼️ 关键图片
📊 实验亮点
Qwen-Scope在多个任务上展示了SAE作为模型开发工具的有效性。例如,通过推理时指导,可以控制模型的语言风格和偏好,而无需修改模型权重。通过数据中心工作流程,可以利用SAE特征进行多语言毒性分类和安全数据合成。通过后训练优化,可以有效减轻代码切换和重复等不良行为。
🎯 应用场景
该研究成果可应用于大语言模型的安全性和可靠性提升,例如减少模型生成有害内容、避免代码切换和重复等问题。此外,该方法还可以用于模型能力评估和数据增强,加速大语言模型的开发和部署。
📄 摘要(原文)
Large language models have achieved remarkable capabilities across diverse tasks, yet their internal decision-making processes remain largely opaque, limiting our ability to inspect, control, and systematically improve them. This opacity motivates a growing body of research in mechanistic interpretability, with sparse autoencoders (SAEs) emerging as one of the most promising tools for decomposing model activations into sparse, interpretable feature representations. We introduce Qwen-Scope, an open-source suite of SAEs built on the Qwen model family, comprising 14 groups of SAEs across 7 model variants from the Qwen3 and Qwen3.5 series, covering both dense and mixture-of-expert architectures. Built on top of these SAEs, we show that SAEs can go beyond post-hoc analysis to serve as practical interfaces for model development along four directions: (i) inference-time steering, where SAE feature directions control language, concepts, and preferences without modifying model weights; (ii) evaluation analysis, where activated SAE features provide a representation-level proxy for benchmark redundancy and capability coverage; (iii) data-centric workflows, where SAE features support multilingual toxicity classification and safety-oriented data synthesis; and (iv) post-training optimization, where SAE-derived signals are incorporated into supervised fine-tuning and reinforcement learning objectives to mitigate undesirable behaviors such as code-switching and repetition. Together, these results demonstrate that SAEs can serve not only as post-hoc analysis tools, but also as reusable representation-level interfaces for diagnosing, controlling, evaluating, and improving large language models. By open-sourcing Qwen-Scope, we aim to support mechanistic research and accelerate practical workflows that connect model internals to downstream behavior.