Entropy-KL Divergence-based Token Masking: A Novel Approach for Selective Fine-tuning of Large Language Models

作者: Qi Liu, Mingdi Sun, Yongyi He, Zhi Zheng, Tong Xu, Yi Zheng, Zhefeng Wang, Enhong Chen

分类: cs.AI

发布日期: 2026-05-28

备注: 17 pages

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于熵-KL散度的token掩码方法EKSFT，用于大语言模型选择性微调。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 选择性微调 熵 KL散度 token掩码 强化学习 分布偏移

📋 核心要点

现有SFT方法在数据量较少时易过拟合，导致模型偏离预训练分布，影响后续RL阶段的探索效率。
EKSFT通过掩码高熵或高KL散度的token，避免模型记忆特定内容，从而更好地保留预训练分布。
实验表明，EKSFT在数学推理任务上优于标准SFT，且能提升后续RL微调的性能。

📝 摘要（中文）

监督微调（SFT）和强化学习（RL）已成为大型语言模型后训练的标准范式。该范式为RL探索提供了一个冷启动，避免了纯RL中on-policy采样产生不足正样本的低效问题。然而，在实践中，与RL阶段相比，现有方法通常使用少量数据进行SFT初始化，这可能导致模型过度拟合有限的样本，并偏离其预训练分布。这种分布偏移阻碍了模型在后续RL训练中有效探索的能力。为了解决这个挑战，我们提出在低数据情况下，SFT应该优先激活任务相关的能力，而不是记忆特定的内容。因此，我们提出了EKSFT（Entropy-KL Selective Fine-Tuning），它选择性地掩盖那些表现出高熵或与参考模型具有高KL散度的token。通过从模仿中排除这些高不确定性、分布偏移的token，EKSFT注入了任务特定的知识，同时保持了模型预训练分布的完整性。在数学推理基准上的经验评估表明，EKSFT始终优于标准SFT。从EKSFT模型进一步进行RL微调可以获得始终更好的后RL性能，表明RL阶段的探索得到了改善。我们的代码和数据集可在https://github.com/MINE-USTC/EKSFT获得。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在低数据量下进行监督微调（SFT）时容易过拟合的问题。现有方法在SFT阶段使用少量数据，导致模型偏离其预训练分布，从而影响后续强化学习（RL）阶段的探索效率。这种分布偏移使得模型难以有效地学习新的任务，并可能导致性能下降。

核心思路：论文的核心思路是，在低数据量的情况下，SFT应该更加注重激活模型中与任务相关的能力，而不是简单地记忆训练数据中的特定内容。为了实现这一目标，论文提出了一种选择性微调方法，该方法通过掩码那些对模型预训练分布影响较大的token，从而避免模型过度拟合训练数据。

技术框架：EKSFT (Entropy-KL Selective Fine-Tuning) 包含以下主要步骤：1) 使用少量任务相关数据进行SFT；2) 计算每个token的熵和KL散度，熵衡量模型对该token预测的不确定性，KL散度衡量SFT后的模型与预训练模型在该token上的分布差异；3) 根据熵和KL散度选择需要掩码的token；4) 使用掩码后的数据重新进行SFT。

关键创新：EKSFT的关键创新在于其选择性token掩码策略。与传统的SFT方法不同，EKSFT不是简单地对所有token进行微调，而是有选择地掩码那些对模型预训练分布影响较大的token。这种策略可以有效地避免模型过度拟合训练数据，并保留模型的泛化能力。

关键设计：EKSFT的关键设计包括：1) 熵的计算方法，通常使用模型预测概率分布的负熵；2) KL散度的计算方法，通常使用SFT后模型和预训练模型在token预测上的概率分布；3) 掩码token的选择策略，例如设置熵和KL散度的阈值，或者选择熵和KL散度最高的top-k个token；4) 掩码策略，例如将选中的token替换为特殊token [MASK]，或者直接从训练数据中删除这些token。

🖼️ 关键图片

📊 实验亮点

实验结果表明，EKSFT在数学推理基准上始终优于标准SFT。进一步的RL微调实验表明，从EKSFT模型出发进行RL训练，可以获得持续更好的后RL性能，这表明EKSFT能够改善RL阶段的探索。具体性能提升数据在论文中给出，证明了EKSFT的有效性。

🎯 应用场景

EKSFT方法可应用于各种需要对大型语言模型进行微调的场景，尤其是在数据量有限的情况下。例如，可以用于特定领域的文本生成、对话系统、代码生成等任务。该方法能够提升模型在低资源场景下的性能，并提高模型在后续强化学习阶段的探索效率，具有重要的实际应用价值。

📄 摘要（原文）

Supervised fine-tuning (SFT) followed by reinforcement learning (RL) has become a standard post-training paradigm for large language models. This paradigm provides a cold-start for RL exploration, avoiding the inefficiency of pure RL where on-policy sampling yields insufficient positive samples. However, in practice, existing approaches often use a small amount of data for SFT initialization compared to the RL phase, which can cause the model to fit the limited samples and shift away from its pre-trained distribution. This distribution shift impedes the model's ability to effectively explore during subsequent RL training. To address this challenge, we propose that in low-data regimes, SFT should prioritize activating task-relevant capabilities rather than memorizing specific content. Along this line, we propose EKSFT (Entropy-KL Selective Fine-Tuning), which selectively masks tokens that exhibit either high entropy or high KL divergence from a reference model. By excluding these high-uncertainty, distribution-shifting tokens from imitation, EKSFT injects task-specific knowledge while preserving the integrity of the model's pre-trained distribution. Empirical evaluations on mathematical reasoning benchmarks demonstrate that EKSFT consistently outperforms standard SFT. Further RL fine-tuning from the EKSFT model yields consistently better post-RL performance, indicating improved exploration for the RL stage. Our codes and datasets are available at https://github.com/MINE-USTC/EKSFT.

Entropy-KL Divergence-based Token Masking: A Novel Approach for Selective Fine-tuning of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理