Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders

作者: Yi Jing, Zao Dai, Jinwu Hu, Zijun Yao, Lei Hou, Juanzi Li, Xiaozhi Wang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-26

💡 一句话要点

SAERL：利用稀疏自编码器模型内部信息指导LLM后训练数据工程

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 后训练 数据工程 稀疏自编码器 强化学习

📋 核心要点

现有后训练数据工程主要依赖外部信号，忽略了LLM模型内部蕴含的丰富信息。
SAERL利用稀疏自编码器提取模型内部信息，建模数据多样性、难度和质量，指导数据工程。
实验表明，SAERL在多个模型和算法上均有提升，且SAE具有良好的迁移性。

📝 摘要（中文）

本文提出了一种名为SAERL的数据工程框架，用于大型语言模型（LLM）的强化学习（RL）。该框架利用稀疏自编码器（SAE）提取的模型内部信息，对数据进行建模，关注三个内在属性：多样性、难度和质量。SAERL基于这些属性进行具体的数据工程操作：使用SAE空间聚类和适度批次混合控制批次多样性，使用难度代理进行由易到难的课程排序，以及使用质量探针进行数据过滤。在Qwen2.5-Math-1.5B模型上，SAERL相比于vanilla GRPO，平均准确率提高了3.00%，并且达到目标准确率所需的训练步数减少了20%。实验表明，SAE可以有效地跨模型家族和尺度进行迁移，成为一种轻量级且可重用的数据工程工具。这些结果表明，模型内部信息是后训练数据工程的强大且实用的信号来源。

🔬 方法详解

问题定义：现有的大型语言模型后训练数据工程方法主要依赖于外部信号，例如人工标注或启发式规则，而忽略了模型自身内部蕴含的关于训练数据的丰富信息。这些内部信息可以反映模型对不同数据的处理方式，从而指导数据选择、排序和过滤，提升训练效率和模型性能。现有方法的痛点在于无法有效利用这些内部信息，导致数据工程效率低下。

核心思路：SAERL的核心思路是利用稀疏自编码器（SAE）从LLM的内部激活中提取有意义的特征，并将这些特征用于建模数据的三个关键属性：多样性、难度和质量。通过对这三个属性的控制，SAERL可以指导数据工程操作，例如控制训练批次的多样性、进行课程学习以及过滤低质量数据。这种方法的核心在于利用模型自身的理解来优化训练数据，从而提高训练效率和模型性能。

技术框架：SAERL的整体框架包括以下几个主要模块：1) SAE训练：使用LLM的内部激活训练稀疏自编码器，提取模型内部特征。2) 数据属性建模：利用SAE提取的特征，分别建模数据的多样性、难度和质量。多样性通过SAE空间聚类和批次混合控制，难度通过难度代理进行评估，质量通过质量探针进行评估。3) 数据工程操作：基于建模的数据属性，进行具体的数据工程操作，包括批次多样性控制、课程学习和数据过滤。4) RL训练：使用经过数据工程处理后的数据，对LLM进行强化学习训练。

关键创新：SAERL最重要的技术创新点在于利用稀疏自编码器从LLM内部提取特征，并将其用于指导后训练数据工程。与现有方法相比，SAERL能够有效利用模型自身的理解来优化训练数据，从而提高训练效率和模型性能。此外，SAE的跨模型家族和尺度迁移能力也使得SAERL具有更广泛的适用性。

关键设计：在SAERL中，SAE的训练目标是最小化重构误差，同时鼓励稀疏性。多样性建模使用SAE空间聚类，例如K-means，并控制每个批次中来自不同簇的数据比例。难度代理可以是模型在特定数据上的损失值，用于进行课程学习。质量探针可以是基于SAE特征训练的分类器，用于预测数据的质量。批次混合比例、课程学习的难度递增策略以及数据过滤的阈值等参数需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SAERL在Qwen2.5-Math-1.5B模型上，相比于vanilla GRPO，平均准确率提高了3.00%，并且达到目标准确率所需的训练步数减少了20%。此外，实验还验证了SAE的跨模型家族和尺度迁移能力，表明SAERL具有良好的泛化性能。这些结果证明了模型内部信息在后训练数据工程中的价值。

🎯 应用场景

SAERL可应用于各种需要对大型语言模型进行后训练的场景，例如指令微调、奖励模型训练和强化学习。该方法能够有效提升训练效率和模型性能，降低训练成本。其潜在应用领域包括自然语言处理、对话系统、智能客服、教育等。SAERL的未来影响在于推动LLM后训练数据工程的自动化和智能化，使得LLM能够更好地适应特定任务和领域。

📄 摘要（原文）

Model internals encode rich information about how a large language model (LLM) processes its training data; however, post-training data engineering largely relies on external signals and ignores rich intrinsic signals lying in model internals. We propose SAERL, a data engineering framework for LLM reinforcement learning (RL). It models three intrinsic data properties: diversity, difficulty, and quality, using model internals extracted with Sparse Autoencoder (SAE), an advanced mechanistic interpretability tool. Each property grounds a concrete data engineering operation: SAE-space clustering with moderate batch mixing for batch diversity control, a difficulty proxy for easy-to-hard curriculum ordering, and a quality probe for data filtering. SAERL improves average accuracy by 3.00% over vanilla GRPO and reaches target accuracy with 20% fewer training steps on Qwen2.5-Math-1.5B, with consistent gains across model scales and RL algorithms. Experiments show that SAE transfers effectively across model families and scales, serving as a lightweight and reusable data engineering tool. These results demonstrate that model internals are a powerful and practical source of signals for post-training data engineering.

Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理