Unified Data Selection for LLM Reasoning
作者: Xiaoyuan Li, Yubo Ma, Chengpeng Li, Fengbin Zhu, Yiyao Yu, Keqin Bao, Wenjie Wang, Fuli Feng, Dayiheng Liu
分类: cs.CL
发布日期: 2026-05-21
备注: Under Review
💡 一句话要点
提出基于高熵和(HES)的无训练数据选择方法,提升LLM推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理 数据选择 高熵和 免训练
📋 核心要点
- 现有LLM推理训练方法面临高质量推理数据需求大、计算成本高和质量区分难等挑战。
- 论文提出高熵和(HES)指标,通过计算高熵token的熵值总和来评估推理质量,无需额外训练。
- 实验表明,基于HES的数据选择在SFT、RFT和RL等训练范式中均能提升LLM推理性能,并降低计算成本。
📝 摘要(中文)
为了有效训练大型语言模型(LLM)进行复杂、长链推理,高质量推理数据的需求常常成为瓶颈。现有方法要么计算成本高昂,要么无法可靠地区分高质量和低质量的推理样本。为了解决这个问题,我们提出了一种免训练的指标——高熵和(HES),它通过仅对每个推理样本中熵值最高的顶部(例如,0.5%)token的熵求和来量化推理质量。我们在三种主流训练范式:监督微调(SFT)、拒绝微调(RFT)和强化学习(RL)中验证了HES,大量结果表明其一致有效性并显著降低了计算开销。在SFT中,训练排名前20%的HES数据与完整数据集的性能相匹配,而使用最低HES数据会降低性能。在RFT中,我们基于HES的训练方法明显优于基线方法。在RL中,HES选择的成功轨迹使模型能够学习强大的推理模式,显著超越其他比较方法。我们的发现确立了HES作为一种稳健的、免训练的指标,它为开发LLM中的高级推理提供了一种统一、有效和高效的方法。
🔬 方法详解
问题定义:现有的大型语言模型在进行复杂推理时,需要大量高质量的推理数据进行训练。然而,获取这些数据成本高昂,并且现有的数据选择方法要么计算复杂度过高,要么无法准确区分高质量和低质量的推理样本,导致训练效率低下。
核心思路:论文的核心思路是利用信息论中的熵来衡量推理步骤的质量。高质量的推理步骤通常包含更多的不确定性和信息量,因此其对应的token熵值会更高。通过对推理过程中熵值最高的token进行分析,可以有效地评估整个推理过程的质量,从而筛选出更有价值的训练数据。
技术框架:该方法主要包含以下几个阶段:1) 使用LLM生成推理样本;2) 计算每个推理样本中每个token的熵值;3) 选择熵值最高的top-k%的token;4) 将这些token的熵值进行求和,得到HES值;5) 根据HES值对推理样本进行排序,选择高质量的样本用于训练。该框架可以应用于SFT、RFT和RL等不同的训练范式。
关键创新:该方法最关键的创新在于提出了HES指标,该指标无需任何训练,可以直接用于评估推理样本的质量。与现有的需要训练的模型或复杂的计算方法相比,HES更加高效和易于使用。此外,HES能够有效地捕捉推理过程中的关键信息,从而更准确地评估推理质量。
关键设计:HES的关键设计在于选择top-k%的token。论文中建议选择0.5%的token,但具体数值可以根据实际情况进行调整。此外,熵的计算方式也可能影响HES的性能,可以使用不同的熵计算方法进行尝试。在RL中,HES被用于选择成功的轨迹,并用于奖励模型的行为。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在SFT中,使用HES选择的top 20%数据即可达到全数据集的训练效果,而使用最低HES的数据则会降低性能。在RFT中,基于HES的训练方法显著优于基线方法。在RL中,HES选择的成功轨迹使得模型能够学习到更强的推理模式,显著超越其他方法。这些结果充分验证了HES的有效性和高效性。
🎯 应用场景
该研究成果可广泛应用于各种需要LLM进行复杂推理的场景,例如问答系统、对话系统、代码生成等。通过使用HES进行数据选择,可以显著降低训练成本,提高模型性能,并加速LLM在实际应用中的部署。未来,该方法还可以扩展到其他类型的数据选择任务中,例如文本摘要、机器翻译等。
📄 摘要(原文)
Effectively training Large Language Models (LLMs) for complex, long-CoT reasoning is often bottlenecked by the need for massive high-quality reasoning data. Existing methods are either computationally expensive or fail to reliably distinguish high- from low-quality reasoning samples. To address this, we propose High-Entropy Sum (HES), a training-free metric that quantifies reasoning quality by summing only the entropy of the top (e.g., 0.5\%) highest-entropy tokens in each reasoning sample. We validate HES across three mainstream training paradigms: Supervised Fine-tuning (SFT), Rejection Fine-tuning (RFT), and Reinforcement Learning (RL), with extensive results demonstrating its consistent effectiveness and significantly reduced computational overhead. In SFT, training on the top 20\% HES-ranked data matches full-dataset performance, while using the lowest-HES data degrades it. In RFT, our HES-based training approach significantly outperforms baseline methods. In RL, HES-selected successful trajectories enable the model to learn strong reasoning patterns, significantly surpassing other compared methods. Our findings establish HES as a robust, training-free metric that enables a unified, effective, and efficient method for developing advanced reasoning in LLMs.