Offline Exploration-Aware Fine-Tuning for Long-Chain Mathematical Reasoning
作者: Yongyu Mu, Jiali Zeng, Fandong Meng, JingBo Zhu, Tong Xiao
分类: cs.LG, cs.CL
发布日期: 2026-03-17
备注: Working in process
💡 一句话要点
提出离线探索感知微调(OXA),提升LLM长链数学推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学推理 离线微调 探索感知 强化学习 语言模型
📋 核心要点
- 现有研究忽略了监督微调(SFT)阶段对探索的感知,这限制了强化学习的初始探索空间。
- OXA通过优化低置信度正确数据和抑制高置信度错误数据,引导模型学习更有效的推理模式。
- 实验表明,OXA显著提升了数学推理性能,并在强化学习训练中保持了长期优势。
📝 摘要(中文)
本文提出离线探索感知微调(OXA),旨在提升大型语言模型在数学推理方面的能力。现有研究主要关注强化学习阶段的探索,而忽略了监督微调(SFT)阶段的探索感知。OXA优化两个目标:一是促进低置信度验证过的教师模型数据,以学习先前未捕获的推理模式;二是抑制高置信度但错误的自蒸馏数据,将错误模式的概率质量重新分配给潜在正确的候选答案。实验结果表明,OXA在6个基准测试中持续提升数学推理性能,尤其是在Qwen2.5-1.5B-Math上,与传统SFT相比,Pass@1平均提升+6,Pass@$k$平均提升+5。此外,OXA提高了初始策略熵,并且性能增益在强化学习训练中持续存在,证明了OXA的长期价值。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在长链数学推理中,由于监督微调阶段缺乏探索感知而导致的性能瓶颈问题。现有的监督微调方法主要关注对高质量推理轨迹的模仿,而忽略了对模型探索能力的培养,导致模型容易陷入局部最优,难以发现新的推理路径。
核心思路:论文的核心思路是通过离线的方式,在监督微调阶段引入探索感知的训练目标。具体来说,论文通过鼓励模型学习低置信度但验证正确的推理轨迹,以及抑制高置信度但错误的推理轨迹,来引导模型探索更广阔的推理空间。这种方法旨在提高模型的初始策略熵,使其在后续的强化学习训练中能够更好地进行探索。
技术框架:OXA包含两个主要的优化目标。首先,对于低置信度但验证正确的教师模型数据,使用教师蒸馏损失进行训练,鼓励模型学习这些先前未捕获的推理模式。其次,对于高置信度但错误的自蒸馏数据,通过调整损失函数,抑制模型对这些错误模式的过度拟合,并将概率质量重新分配给潜在正确的候选答案。整体流程是在离线数据集上,同时优化这两个目标,从而实现探索感知的微调。
关键创新:OXA的关键创新在于将探索感知的思想引入到监督微调阶段。与传统的监督微调方法不同,OXA不仅关注对高质量数据的模仿,还关注对模型探索能力的培养。通过优化低置信度正确数据和抑制高置信度错误数据,OXA能够有效地提高模型的初始策略熵,使其在后续的强化学习训练中能够更好地进行探索。
关键设计:OXA的关键设计包括两个损失函数。对于低置信度正确数据,使用标准的交叉熵损失进行训练。对于高置信度错误数据,使用一种改进的交叉熵损失,该损失函数会降低模型对错误答案的置信度,并提高对潜在正确答案的置信度。具体来说,可以通过调整交叉熵损失中的权重来实现这一目标。此外,论文还可能涉及到一些超参数的设置,例如低置信度和高置信度的阈值,以及损失函数的权重等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OXA在6个数学推理基准测试中持续提升性能。在Qwen2.5-1.5B-Math上,与传统SFT相比,Pass@1平均提升+6,Pass@$k$平均提升+5。更重要的是,OXA提高了初始策略熵,并且性能增益在强化学习训练中持续存在,证明了OXA的长期价值。
🎯 应用场景
该研究成果可应用于提升大型语言模型在需要复杂推理能力的场景下的性能,例如数学解题、逻辑推理、代码生成等。通过提高模型的探索能力,可以使其更好地解决复杂问题,并在实际应用中表现出更强的泛化能力。此外,该方法还可以推广到其他需要探索的机器学习任务中。
📄 摘要(原文)
Through encouraging self-exploration, reinforcement learning from verifiable rewards (RLVR) has significantly advanced the mathematical reasoning capabilities of large language models. As the starting point for RLVR, the capacity of supervised fine-tuning (SFT) to memorize new chain-of-thought trajectories provides a crucial initialization that shapes the subsequent exploration landscape. However, existing research primarily focuses on facilitating exploration during RLVR training, leaving exploration-aware SFT under-explored. To bridge this gap, we propose Offline eXploration-Aware (OXA) fine-tuning. Specifically, OXA optimizes two objectives: promoting low-confidence verified teacher-distillation data to internalize previously uncaptured reasoning patterns, and suppressing high-confidence incorrect self-distillation data to redistribute probability mass of incorrect patterns toward potentially correct candidates. Experimental results across 6 benchmarks show that OXA consistently improves mathematical reasoning performance, especially achieving an average gain of $+6$ Pass@1 and $+5$ Pass@$k$ points compared to conventional SFT on the Qwen2.5-1.5B-Math. Crucially, OXA elevates initial policy entropy, and performance gains persist throughout extensive RLVR training, demonstrating the long-term value of OXA.