Entropy-Based Adaptive Weighting for Self-Training

作者: Xiaoxuan Wang, Yihe Deng, Mingyu Derek Ma, Wei Wang

分类: cs.CL

发布日期: 2025-03-31

💡 一句话要点

提出基于熵的自训练自适应加权方法EAST，提升大语言模型数学问题求解能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自训练 熵 自适应加权 大型语言模型 数学问题求解

📋 核心要点

现有自训练方法在优化自生成数据利用率方面存在挑战，如何有效利用这些数据提升模型性能是关键问题。
EAST通过熵值评估数据不确定性，自适应地调整数据权重，使模型更关注不确定性高的、信息量大的样本。
实验表明，EAST在GSM8K和MATH数据集上均优于原始自训练方法，验证了其在提升数学问题求解能力方面的有效性。

📝 摘要（中文）

大型语言模型的数学问题求解能力已成为研究焦点，利用自生成的推理路径来改进和增强这些模型的方法备受关注。这些路径捕捉了逐步的逻辑过程，只需要正确的答案进行监督。自训练方法已被证明在推理任务中有效，同时消除了对外部模型和手动注释的需求。然而，如何优化自生成数据以进行模型训练仍然是一个开放的挑战。本文提出了一种基于熵的自训练自适应加权方法（EAST），该方法采用自适应加权策略，旨在优先考虑自训练期间的不确定数据。具体来说，EAST采用具有可调参数的映射函数来控制加权的锐度，为模型表现出更大不确定性的数据分配更高的权重。这种方法引导模型专注于更具信息性和挑战性的示例，从而增强其推理能力。我们在GSM8K和MATH基准上评估了我们的方法。实验结果表明，虽然原始方法在MATH上几乎没有改进（0%），但EAST比骨干模型实现了约1%的增益。在GSM8K上，EAST比原始方法获得了额外的1-2%的性能提升。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在数学问题求解中，如何更有效地利用自生成推理路径进行自训练的问题。现有自训练方法对所有自生成数据同等对待，忽略了数据质量的差异，导致模型训练效率低下，甚至无法有效提升性能。

核心思路：论文的核心思路是根据自生成数据的“不确定性”来调整其在训练过程中的权重。模型对某个样本的预测越不确定（熵越高），说明该样本包含的信息量越大，越值得模型学习。通过赋予不确定性高的样本更高的权重，可以引导模型关注更具挑战性和信息量的例子，从而提高模型的推理能力。

技术框架：EAST方法的整体流程如下：1) 使用大型语言模型生成推理路径；2) 计算每个推理路径的熵值，作为其不确定性的度量；3) 使用一个可调参数的映射函数，将熵值映射为权重；4) 使用带有权重的自生成数据对模型进行训练。

关键创新：EAST的关键创新在于提出了基于熵的自适应加权策略。与传统的自训练方法不同，EAST能够根据数据的不确定性动态地调整权重，从而更有效地利用自生成数据。这种方法无需额外的人工标注或外部模型，即可显著提升模型的推理能力。

关键设计：EAST的关键设计包括：1) 使用softmax输出概率计算熵值，作为不确定性的度量；2) 使用一个sigmoid函数作为映射函数，将熵值映射到[0, 1]之间的权重，sigmoid函数的陡峭程度由一个可调参数控制，用于调节权重分配的策略；3) 使用加权交叉熵损失函数进行训练，权重由EAST方法计算得到。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在MATH数据集上，原始自训练方法几乎没有提升（0%），而EAST方法能够带来约1%的性能提升。在GSM8K数据集上，EAST方法相比原始方法能够带来1-2%的额外性能提升。这些结果验证了EAST方法在提升大型语言模型数学问题求解能力方面的有效性。

🎯 应用场景

EAST方法可应用于各种需要利用自生成数据进行模型训练的场景，例如代码生成、文本摘要、对话生成等。通过自适应地调整数据权重，EAST可以提高模型的训练效率和性能，降低对人工标注数据的依赖，具有广泛的应用前景。

📄 摘要（原文）

The mathematical problem-solving capabilities of large language models have become a focal point of research, with growing interests in leveraging self-generated reasoning paths as a promising way to refine and enhance these models. These paths capture step-by-step logical processes while requiring only the correct answer for supervision. The self-training method has been shown to be effective in reasoning tasks while eliminating the need for external models and manual annotations. However, optimizing the use of self-generated data for model training remains an open challenge. In this work, we propose Entropy-Based Adaptive Weighting for Self-Training (EAST), an adaptive weighting strategy designed to prioritize uncertain data during self-training. Specifically, EAST employs a mapping function with a tunable parameter that controls the sharpness of the weighting, assigning higher weights to data where the model exhibits greater uncertainty. This approach guides the model to focus on more informative and challenging examples, thereby enhancing its reasoning ability. We evaluate our approach on GSM8K and MATH benchmarks. Empirical results show that, while the vanilla method yields virtually no improvement (0%) on MATH, EAST achieves around a 1% gain over backbone model. On GSM8K, EAST attains a further 1-2% performance boost compared to the vanilla method.

Entropy-Based Adaptive Weighting for Self-Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理