On the Step Length Confounding in LLM Reasoning Data Selection
作者: Bing Wang, Rui Miao, Chen Shen, Shaotian Yan, Kaiyuan Liu, Ximing Li, Xiaosong Yuan, Sinan Fan, Jun Zhang, Jieping Ye
分类: cs.CL, cs.AI
发布日期: 2026-04-08
备注: Accepted by Findings of ACL 2026. 15 pages, 9 figures. Code: https://github.com/wangbing1416/ASLEC
💡 一句话要点
揭示并缓解LLM推理数据选择中步长偏差问题,提升数据质量
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理数据选择 步长偏差 因果去偏 自然语言处理
📋 核心要点
- 现有基于自然性的LLM推理数据选择方法存在步长偏差,倾向于选择步长更长的样本,而非真正高质量的样本。
- 论文提出ASLEC-DROP和ASLEC-CASL两种方法,分别通过去除首token概率和因果去偏回归来缓解步长偏差。
- 实验结果表明,提出的方法能够有效缓解步长偏差,提升LLM推理数据选择的质量和性能。
📝 摘要(中文)
大型推理模型通过在大规模高质量数据集上进行监督微调,在需要长链式思考推理的复杂任务上表现出强大的性能。为了构建此类数据集,现有流程通常从更强大的大型语言模型(LLM)生成长推理数据,并应用手动启发式或基于自然性的选择方法来过滤高质量样本。尽管基于自然性的数据选择已被证明有效(通过LLM分配的平均对数概率对数据进行排序),但我们的分析表明,当应用于LLM推理数据集时,它系统性地偏好具有更长推理步骤(即每个步骤更多token)的样本,而不是更高质量的样本,我们称之为步长偏差。通过定量分析,我们将这种现象归因于推理步骤中低概率的首个token;更长的步骤稀释了它们的影响,从而夸大了平均对数概率。为了解决这个问题,我们提出了两种变体方法:ASLEC-DROP,它在计算平均对数概率时删除首个token的概率;以及ASLEC-CASL,它应用因果去偏回归来消除首个token的偏差影响。在四个LLM和五个评估基准上的实验证明了我们的方法在缓解步长偏差问题方面的有效性。
🔬 方法详解
问题定义:论文旨在解决LLM推理数据选择中存在的步长偏差问题。现有基于自然性的数据选择方法,如使用LLM的平均对数概率来评估数据质量,在选择推理数据时会系统性地偏好步长更长的样本,即使这些样本的推理质量并不高。这种偏差导致最终训练的模型性能受限。
核心思路:论文的核心思路是识别并消除导致步长偏差的因素。通过分析发现,推理步骤中的首个token的低概率是造成偏差的主要原因。更长的步骤会稀释首个token的影响,从而使平均对数概率偏高。因此,论文提出两种方法来减轻首个token的影响。
技术框架:论文提出了两种缓解步长偏差的方法,分别是ASLEC-DROP和ASLEC-CASL。ASLEC-DROP直接在计算平均对数概率时,将每个推理步骤的首个token的概率值去除。ASLEC-CASL则采用因果推断的思路,构建一个因果图,并使用回归模型来消除首个token对平均对数概率的混淆效应。整体流程包括:1)使用LLM生成推理数据;2)使用ASLEC-DROP或ASLEC-CASL计算样本的质量得分;3)根据得分选择高质量的样本;4)使用选择的样本微调LLM。
关键创新:论文的关键创新在于识别了LLM推理数据选择中存在的步长偏差,并提出了两种简单有效的缓解方法。与现有方法相比,ASLEC-DROP和ASLEC-CASL能够更准确地评估推理数据的质量,从而选择出更适合微调LLM的样本。
关键设计:ASLEC-DROP的关键设计在于直接去除首个token的概率值,简单有效。ASLEC-CASL的关键设计在于构建了合理的因果图,并使用线性回归模型进行因果去偏。具体来说,因果图将步长长度、首个token概率和平均对数概率作为节点,并定义了它们之间的因果关系。回归模型的目标是预测在没有首个token影响下的平均对数概率,从而消除偏差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ASLEC-DROP和ASLEC-CASL在四个LLM(包括LLaMA-7B、LLaMA-13B、Vicuna-7B和Vicuna-13B)和五个评估基准上均取得了显著的性能提升。例如,在某些基准测试中,使用ASLEC-DROP或ASLEC-CASL选择的数据训练的模型,相比使用原始平均对数概率选择的数据训练的模型,准确率提升了2-5个百分点。
🎯 应用场景
该研究成果可应用于各种需要高质量推理数据的LLM训练场景,例如知识问答、数学问题求解、代码生成等。通过缓解步长偏差,可以提升LLM的推理能力和泛化性能,使其在实际应用中更加可靠和有效。该方法也有助于构建更高效的数据选择流程,降低人工标注成本。
📄 摘要(原文)
Large reasoning models have recently demonstrated strong performance on complex tasks that require long chain-of-thought reasoning, through supervised fine-tuning on large-scale and high-quality datasets. To construct such datasets, existing pipelines generate long reasoning data from more capable Large Language Models (LLMs) and apply manually heuristic or naturalness-based selection methods to filter high-quality samples. Despite the proven effectiveness of naturalness-based data selection, which ranks data by the average log probability assigned by LLMs, our analysis shows that, when applied to LLM reasoning datasets, it systematically prefers samples with longer reasoning steps (i.e., more tokens per step) rather than higher-quality ones, a phenomenon we term step length confounding. Through quantitative analysis, we attribute this phenomenon to low-probability first tokens in reasoning steps; longer steps dilute their influence, thereby inflating the average log probabilities. To address this issue, we propose two variant methods: ASLEC-DROP, which drops first-token probabilities when computing average log probability, and ASLEC-CASL, which applies a causal debiasing regression to remove the first tokens' confounding effect. Experiments across four LLMs and five evaluation benchmarks demonstrate the effectiveness of our approach in mitigating the step length confounding problem.