Unified Data Selection for LLM Reasoning

作者: Xiaoyuan Li, Yubo Ma, Chengpeng Li, Fengbin Zhu, Yiyao Yu, Keqin Bao, Wenjie Wang, Fuli Feng, Dayiheng Liu

分类: cs.CL

发布日期: 2026-05-21

备注: Under Review

💡 一句话要点

提出基于高熵和（HES）的无训练数据选择方法，提升LLM推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理 数据选择 高熵和 免训练

📋 核心要点

现有LLM推理训练方法面临高质量推理数据需求大、计算成本高和质量区分难等挑战。
论文提出高熵和（HES）指标，通过计算高熵token的熵值总和来评估推理质量，无需额外训练。
实验表明，基于HES的数据选择在SFT、RFT和RL等训练范式中均能提升LLM推理性能，并降低计算成本。

📝 摘要（中文）

为了有效训练大型语言模型（LLM）进行复杂、长链推理，高质量推理数据的需求常常成为瓶颈。现有方法要么计算成本高昂，要么无法可靠地区分高质量和低质量的推理样本。为了解决这个问题，我们提出了一种免训练的指标——高熵和（HES），它通过仅对每个推理样本中熵值最高的顶部（例如，0.5%）token的熵求和来量化推理质量。我们在三种主流训练范式：监督微调（SFT）、拒绝微调（RFT）和强化学习（RL）中验证了HES，大量结果表明其一致有效性并显著降低了计算开销。在SFT中，训练排名前20%的HES数据与完整数据集的性能相匹配，而使用最低HES数据会降低性能。在RFT中，我们基于HES的训练方法明显优于基线方法。在RL中，HES选择的成功轨迹使模型能够学习强大的推理模式，显著超越其他比较方法。我们的发现确立了HES作为一种稳健的、免训练的指标，它为开发LLM中的高级推理提供了一种统一、有效和高效的方法。

🔬 方法详解

问题定义：现有的大型语言模型在进行复杂推理时，需要大量高质量的推理数据进行训练。然而，获取这些数据成本高昂，并且现有的数据选择方法要么计算复杂度过高，要么无法准确区分高质量和低质量的推理样本，导致训练效率低下。

核心思路：论文的核心思路是利用信息论中的熵来衡量推理步骤的质量。高质量的推理步骤通常包含更多的不确定性和信息量，因此其对应的token熵值会更高。通过对推理过程中熵值最高的token进行分析，可以有效地评估整个推理过程的质量，从而筛选出更有价值的训练数据。

技术框架：该方法主要包含以下几个阶段：1) 使用LLM生成推理样本；2) 计算每个推理样本中每个token的熵值；3) 选择熵值最高的top-k%的token；4) 将这些token的熵值进行求和，得到HES值；5) 根据HES值对推理样本进行排序，选择高质量的样本用于训练。该框架可以应用于SFT、RFT和RL等不同的训练范式。

关键创新：该方法最关键的创新在于提出了HES指标，该指标无需任何训练，可以直接用于评估推理样本的质量。与现有的需要训练的模型或复杂的计算方法相比，HES更加高效和易于使用。此外，HES能够有效地捕捉推理过程中的关键信息，从而更准确地评估推理质量。

关键设计：HES的关键设计在于选择top-k%的token。论文中建议选择0.5%的token，但具体数值可以根据实际情况进行调整。此外，熵的计算方式也可能影响HES的性能，可以使用不同的熵计算方法进行尝试。在RL中，HES被用于选择成功的轨迹，并用于奖励模型的行为。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在SFT中，使用HES选择的top 20%数据即可达到全数据集的训练效果，而使用最低HES的数据则会降低性能。在RFT中，基于HES的训练方法显著优于基线方法。在RL中，HES选择的成功轨迹使得模型能够学习到更强的推理模式，显著超越其他方法。这些结果充分验证了HES的有效性和高效性。

🎯 应用场景

该研究成果可广泛应用于各种需要LLM进行复杂推理的场景，例如问答系统、对话系统、代码生成等。通过使用HES进行数据选择，可以显著降低训练成本，提高模型性能，并加速LLM在实际应用中的部署。未来，该方法还可以扩展到其他类型的数据选择任务中，例如文本摘要、机器翻译等。

📄 摘要（原文）

Effectively training Large Language Models (LLMs) for complex, long-CoT reasoning is often bottlenecked by the need for massive high-quality reasoning data. Existing methods are either computationally expensive or fail to reliably distinguish high- from low-quality reasoning samples. To address this, we propose High-Entropy Sum (HES), a training-free metric that quantifies reasoning quality by summing only the entropy of the top (e.g., 0.5\%) highest-entropy tokens in each reasoning sample. We validate HES across three mainstream training paradigms: Supervised Fine-tuning (SFT), Rejection Fine-tuning (RFT), and Reinforcement Learning (RL), with extensive results demonstrating its consistent effectiveness and significantly reduced computational overhead. In SFT, training on the top 20\% HES-ranked data matches full-dataset performance, while using the lowest-HES data degrades it. In RFT, our HES-based training approach significantly outperforms baseline methods. In RL, HES-selected successful trajectories enable the model to learn strong reasoning patterns, significantly surpassing other compared methods. Our findings establish HES as a robust, training-free metric that enables a unified, effective, and efficient method for developing advanced reasoning in LLMs.

Unified Data Selection for LLM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理