Learning from Mistakes: Negative Reasoning Samples Enhance Out-of-Domain Generalization
作者: Xueyun Tian, Minghua Ma, Bingbing Xu, Nuoyan Lyu, Wei Li, Heng Dong, Zheng Chu, Yuanzhuo Wang, Huawei Shen
分类: cs.CL
发布日期: 2026-01-08
备注: Code and data are available at https://github.com/Eureka-Maggie/GLOW
💡 一句话要点
利用负样本推理提升大语言模型领域外泛化能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 思维链 监督微调 领域外泛化 负样本学习
📋 核心要点
- 现有CoT微调方法仅使用正确答案的轨迹,忽略了包含有效中间推理的错误轨迹,导致信息损失和过拟合。
- 论文提出利用负样本进行训练,并设计了基于增益的损失加权(GLOW)方法,自适应地调整样本损失。
- 实验表明,GLOW能有效提升模型在领域外数据集上的泛化能力,并在MMLU基准测试中取得显著提升。
📝 摘要(中文)
本文研究了在大型语言模型中,通过思维链(CoT)轨迹演示进行监督微调(SFT)以实现推理能力的方法。现有方法通常只保留最终答案正确的轨迹(正样本),而忽略其余轨迹(负样本)。作者认为这种做法丢弃了大量监督信息,加剧了过拟合,限制了领域外(OOD)泛化能力。研究发现,将负样本轨迹纳入SFT训练可以显著提高OOD泛化能力,因为这些轨迹通常保留了有效的中间推理过程,尽管最终答案不正确。通过对负样本链中的22种常见模式进行系统分析,发现它们在训练中起到缓和损失下降以减轻过拟合的作用,并在推理过程中将策略熵提高35.67%,从而促进探索。基于这些观察,作者进一步提出了基于增益的损失加权(GLOW),这是一种自适应的、样本感知的方案,通过基于epoch间进度的重缩放每个样本的损失来利用这种独特的训练动态。实验表明,GLOW有效地利用了未过滤的轨迹,在Qwen2.5-7B上实现了比仅使用正样本的SFT高5.51%的OOD增益,并将MMLU从72.82%提高到76.47%,作为RL初始化。
🔬 方法详解
问题定义:现有基于思维链(CoT)的监督微调(SFT)方法,通常只使用最终答案正确的样本进行训练,而忽略了那些中间推理过程正确但最终答案错误的样本。这种做法的痛点在于,丢弃了大量有用的监督信息,导致模型更容易过拟合训练数据,从而限制了其在领域外(OOD)数据集上的泛化能力。
核心思路:论文的核心思路是利用这些被忽略的“负样本”进行训练。作者认为,即使最终答案错误,这些负样本的中间推理步骤可能仍然是有效的,包含着有价值的知识。通过合理利用这些负样本,可以增强模型的鲁棒性,并提高其在未见过的领域中的泛化能力。
技术框架:整体框架仍然是基于SFT的微调流程,但关键在于数据的使用方式和损失函数的调整。首先,不再只使用正样本,而是同时使用正样本和负样本。然后,引入了Gain-based LOss Weighting (GLOW) 机制,根据每个样本在训练过程中的损失变化情况,动态地调整其损失权重。具体来说,GLOW会根据样本在不同epoch之间的损失变化情况,来判断该样本是否对模型的学习有帮助,并相应地调整其损失权重。
关键创新:最重要的技术创新点在于GLOW损失加权策略。与传统的静态损失加权方法不同,GLOW是动态的、样本感知的。它能够根据每个样本在训练过程中的实际表现,自适应地调整其损失权重,从而更有效地利用正负样本。这种动态加权策略能够更好地平衡模型的学习目标,避免模型过度关注容易学习的样本,而忽略了那些更具挑战性的样本。
关键设计:GLOW的关键设计在于如何计算每个样本的损失权重。具体来说,GLOW会计算每个样本在相邻epoch之间的损失变化量(gain),然后根据这个gain来调整其损失权重。如果一个样本的损失在不断减小,说明模型正在有效地学习它,那么GLOW会降低其损失权重;反之,如果一个样本的损失没有明显减小,甚至还在增加,说明模型可能难以学习它,或者该样本可能是一个噪声样本,那么GLOW会提高其损失权重。这种动态调整策略能够使模型更加关注那些对学习更有帮助的样本,从而提高训练效率和泛化能力。
📊 实验亮点
实验结果表明,GLOW方法在Qwen2.5-7B模型上,相对于仅使用正样本的SFT方法,实现了5.51%的OOD增益。此外,GLOW作为RL的初始化方法,将MMLU基准测试的性能从72.82%提高到76.47%。这些结果表明,利用负样本进行训练,并结合GLOW损失加权策略,可以显著提升大语言模型的泛化能力。
🎯 应用场景
该研究成果可应用于各种需要大语言模型进行推理的场景,尤其是在领域知识有限或需要处理开放领域问题的应用中,例如智能客服、问答系统、文本摘要、代码生成等。通过提升模型的领域外泛化能力,可以使其在更广泛的应用场景中表现更出色,降低对特定领域数据的依赖,并提高模型的鲁棒性和可靠性。
📄 摘要(原文)
Supervised fine-tuning (SFT) on chain-of-thought (CoT) trajectories demonstrations is a common approach for enabling reasoning in large language models. Standard practices typically only retain trajectories with correct final answers (positives) while ignoring the rest (negatives). We argue that this paradigm discards substantial supervision and exacerbates overfitting, limiting out-of-domain (OOD) generalization. Specifically, we surprisingly find that incorporating negative trajectories into SFT yields substantial OOD generalization gains over positive-only training, as these trajectories often retain valid intermediate reasoning despite incorrect final answers. To understand this effect in depth, we systematically analyze data, training dynamics, and inference behavior, identifying 22 recurring patterns in negative chains that serve a dual role: they moderate loss descent to mitigate overfitting during training and boost policy entropy by 35.67% during inference to facilitate exploration. Motivated by these observations, we further propose Gain-based LOss Weighting (GLOW), an adaptive, sample-aware scheme that exploits such distinctive training dynamics by rescaling per-sample loss based on inter-epoch progress. Empirically, GLOW efficiently leverages unfiltered trajectories, yielding a 5.51% OOD gain over positive-only SFT on Qwen2.5-7B and boosting MMLU from 72.82% to 76.47% as an RL initialization.