Learning from Mistakes: Negative Reasoning Samples Enhance Out-of-Domain Generalization
作者: Xueyun Tian, Minghua Ma, Bingbing Xu, Nuoyan Lyu, Wei Li, Heng Dong, Zheng Chu, Yuanzhuo Wang, Huawei Shen
分类: cs.CL
发布日期: 2026-01-08
备注: Code and data are available at https://github.com/Eureka-Maggie/GLOW
💡 一句话要点
利用负样本推理提升大语言模型在域外泛化能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 监督微调 负样本学习 域外泛化 思维链 损失加权 推理能力
📋 核心要点
- 现有大语言模型微调方法忽略了包含错误答案的推理过程,导致信息损失和过拟合。
- 论文提出利用负样本中有效的中间推理过程,缓解过拟合,提升模型探索能力。
- 实验表明,提出的GLOW方法在域外泛化能力和MMLU基准上均取得了显著提升。
📝 摘要(中文)
本文研究了在思维链(CoT)轨迹演示上进行监督微调(SFT)以增强大型语言模型推理能力的方法。现有方法通常只保留最终答案正确的轨迹(正样本),忽略其余轨迹(负样本)。作者认为这种做法丢弃了大量监督信息并加剧了过拟合,限制了域外(OOD)泛化能力。研究发现,将负样本轨迹纳入SFT可以显著提高OOD泛化能力,因为这些轨迹通常保留了有效的中间推理过程,尽管最终答案不正确。通过系统分析数据、训练动态和推理行为,作者识别出负样本链中的22种重复模式,这些模式具有双重作用:它们缓和损失下降以减轻训练期间的过拟合,并通过在推理期间将策略熵提高35.67%来促进探索。基于这些观察,作者进一步提出了基于增益的损失加权(GLOW),这是一种自适应的、样本感知的方案,通过基于epoch间进度的重新缩放每个样本的损失来利用这种独特的训练动态。实验表明,GLOW有效地利用了未过滤的轨迹,在Qwen2.5-7B上实现了比仅使用正样本的SFT高5.51%的OOD增益,并将MMLU从72.82%提高到76.47%,作为RL的初始化。
🔬 方法详解
问题定义:现有的大语言模型在进行监督微调时,通常只使用最终答案正确的思维链(Chain-of-Thought, CoT)轨迹作为正样本,而忽略了最终答案错误的轨迹(负样本)。这种做法的痛点在于,负样本中可能包含正确的中间推理步骤,丢弃这些信息会导致模型训练不充分,容易过拟合,从而限制了模型在域外(Out-of-Domain, OOD)的泛化能力。
核心思路:论文的核心思路是利用负样本中包含的有效中间推理信息来提升模型的泛化能力。作者认为,即使最终答案错误,负样本中的中间推理步骤仍然可能是有价值的,可以帮助模型学习到更鲁棒的推理策略。通过将负样本纳入训练过程,可以缓解过拟合,并鼓励模型在推理过程中进行更广泛的探索。
技术框架:论文提出的方法主要包含两个部分:首先,对正负样本的训练动态进行分析,识别出负样本中存在的22种重复模式。这些模式表明,负样本在训练过程中具有缓和损失下降和提升策略熵的作用。其次,基于这些观察,作者提出了基于增益的损失加权(Gain-based LOss Weighting, GLOW)方法。GLOW是一种自适应的、样本感知的损失加权方案,它根据每个样本在不同epoch之间的训练进度,动态地调整其损失权重。
关键创新:论文的关键创新在于发现了负样本在SFT中的积极作用,并提出了GLOW方法来有效地利用这些负样本。与传统的只使用正样本的SFT方法相比,GLOW能够更好地利用未过滤的轨迹数据,从而提升模型的泛化能力。GLOW的核心在于其自适应的损失加权机制,它能够根据样本的训练动态,动态地调整其损失权重,从而更好地利用负样本中的信息。
关键设计:GLOW的关键设计在于其损失权重的计算方式。具体来说,GLOW根据每个样本在不同epoch之间的损失变化来计算其增益。如果一个样本的损失在不同epoch之间下降较快,说明模型已经较好地学习了该样本,其损失权重会相应降低;反之,如果一个样本的损失下降较慢,说明模型对该样本的学习还不够充分,其损失权重会相应提高。通过这种方式,GLOW能够更加关注那些模型尚未充分学习的样本,从而提升模型的泛化能力。
📊 实验亮点
实验结果表明,GLOW方法在Qwen2.5-7B模型上实现了显著的性能提升。在域外泛化能力方面,GLOW比仅使用正样本的SFT方法提高了5.51%。此外,GLOW还将MMLU基准上的性能从72.82%提高到76.47%,表明该方法可以作为强化学习的有效初始化方法。
🎯 应用场景
该研究成果可应用于各种需要大语言模型进行推理的场景,例如问答系统、对话系统、代码生成等。通过利用负样本进行训练,可以提升模型在复杂或未见过的场景下的表现,提高模型的鲁棒性和可靠性。该方法具有广泛的应用前景,可以促进大语言模型在实际应用中的普及。
📄 摘要(原文)
Supervised fine-tuning (SFT) on chain-of-thought (CoT) trajectories demonstrations is a common approach for enabling reasoning in large language models. Standard practices typically only retain trajectories with correct final answers (positives) while ignoring the rest (negatives). We argue that this paradigm discards substantial supervision and exacerbates overfitting, limiting out-of-domain (OOD) generalization. Specifically, we surprisingly find that incorporating negative trajectories into SFT yields substantial OOD generalization gains over positive-only training, as these trajectories often retain valid intermediate reasoning despite incorrect final answers. To understand this effect in depth, we systematically analyze data, training dynamics, and inference behavior, identifying 22 recurring patterns in negative chains that serve a dual role: they moderate loss descent to mitigate overfitting during training and boost policy entropy by 35.67% during inference to facilitate exploration. Motivated by these observations, we further propose Gain-based LOss Weighting (GLOW), an adaptive, sample-aware scheme that exploits such distinctive training dynamics by rescaling per-sample loss based on inter-epoch progress. Empirically, GLOW efficiently leverages unfiltered trajectories, yielding a 5.51% OOD gain over positive-only SFT on Qwen2.5-7B and boosting MMLU from 72.82% to 76.47% as an RL initialization.