Entropy-Guided Token Dropout: Training Autoregressive Language Models with Limited Domain Data

📄 arXiv: 2512.23422v1 📥 PDF

作者: Jiapeng Wang, Yiwen Hu, Yanzipeng Gao, Haoyu Wang, Shuo Wang, Hongyu Lu, Jiaxin Mao, Wayne Xin Zhao, Junyi Li, Xiao Zhang

分类: cs.CL

发布日期: 2025-12-29


💡 一句话要点

提出EntroDrop,通过熵引导的token dropout解决领域数据受限时自回归语言模型过拟合问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自回归语言模型 领域数据受限 过拟合 熵引导 Token Dropout

📋 核心要点

  1. 现有自回归模型在领域数据有限情况下,多轮训练易导致过拟合,模型泛化能力下降。
  2. EntroDrop通过选择性地dropout低熵token,并使用课程学习调整正则化强度,缓解过拟合。
  3. 实验结果表明,EntroDrop在不同规模模型上均优于标准正则化方法,提升了模型性能。

📝 摘要(中文)

随着高质量领域特定数据的日益稀缺,多轮训练已成为调整大型语言模型(LLM)的实用策略。然而,自回归模型在重复数据暴露下常常遭受性能下降,即过拟合导致模型能力显著下降。通过实证分析,我们将这种退化归因于学习动态的不平衡:可预测的低熵token被快速学习并主导优化,而模型在高熵token上的泛化能力随着持续训练而恶化。为了解决这个问题,我们引入了EntroDrop,一种熵引导的token dropout方法,它作为结构化数据正则化发挥作用。EntroDrop在训练期间选择性地屏蔽低熵token,并采用课程表策略来调整正则化强度,使其与训练进度保持一致。在0.6B到8B参数的模型规模上的实验表明,EntroDrop始终优于标准正则化基线,并在整个扩展的多轮训练中保持稳健的性能。这些发现强调了在数据受限领域进行训练时,将正则化与token级别学习动态对齐的重要性。我们的方法为在数据受限领域更有效地调整LLM提供了一条有希望的途径。

🔬 方法详解

问题定义:论文旨在解决在领域数据受限的情况下,自回归语言模型在多轮训练中出现的过拟合问题。现有方法在重复暴露于有限数据集时,模型会过度学习低熵(易于预测)的token,而忽略高熵(难以预测)的token,导致模型泛化能力下降。

核心思路:论文的核心思路是,通过在训练过程中选择性地dropout低熵的token,来平衡模型对不同熵值token的学习。这样可以迫使模型更多地关注高熵token,从而提高模型的泛化能力,并缓解过拟合。

技术框架:EntroDrop方法主要包含以下几个阶段:1) 熵值计算:在训练过程中,计算每个token的熵值,熵值反映了token的可预测程度。2) Token Dropout:根据token的熵值,以一定的概率dropout低熵的token。dropout概率由一个课程表策略控制,随着训练的进行,dropout的强度逐渐减弱。3) 模型训练:使用dropout后的数据训练自回归语言模型。

关键创新:EntroDrop的关键创新在于:1) 熵引导的Dropout:不同于传统的随机dropout,EntroDrop根据token的熵值进行dropout,更有针对性。2) 课程表策略:dropout的强度随着训练的进行而动态调整,避免了在训练初期过度dropout导致的信息损失。

关键设计:EntroDrop的关键设计包括:1) 熵值计算方法:论文采用模型预测概率计算token的熵值。2) Dropout概率的计算:dropout概率与token的熵值成反比,熵值越低,dropout概率越高。3) 课程表策略:dropout强度随着训练轮数的增加而线性减小。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EntroDrop在不同规模(0.6B-8B参数)的自回归语言模型上均取得了显著的性能提升。与标准正则化方法(如Weight Decay、Dropout)相比,EntroDrop能够更好地缓解过拟合,并在多轮训练中保持模型的性能稳定。具体性能提升数据在论文中给出。

🎯 应用场景

EntroDrop方法可应用于各种领域数据受限的自回归语言模型训练场景,例如低资源语言建模、特定领域的文本生成、以及对现有大型语言模型进行高效微调。该方法能够提升模型在有限数据下的泛化能力,降低过拟合风险,从而提高模型在实际应用中的性能和鲁棒性。

📄 摘要(原文)

As access to high-quality, domain-specific data grows increasingly scarce, multi-epoch training has become a practical strategy for adapting large language models (LLMs). However, autoregressive models often suffer from performance degradation under repeated data exposure, where overfitting leads to a marked decline in model capability. Through empirical analysis, we trace this degradation to an imbalance in learning dynamics: predictable, low-entropy tokens are learned quickly and come to dominate optimization, while the model's ability to generalize on high-entropy tokens deteriorates with continued training. To address this, we introduce EntroDrop, an entropy-guided token dropout method that functions as structured data regularization. EntroDrop selectively masks low-entropy tokens during training and employs a curriculum schedule to adjust regularization strength in alignment with training progress. Experiments across model scales from 0.6B to 8B parameters show that EntroDrop consistently outperforms standard regularization baselines and maintains robust performance throughout extended multi-epoch training. These findings underscore the importance of aligning regularization with token-level learning dynamics when training on limited data. Our approach offers a promising pathway toward more effective adaptation of LLMs in data-constrained domains.