PAINT: Partial-Solution Adaptive Interpolated Training for Self-Distilled Reasoners
作者: Zhiquan Tan, Yinrong Hong
分类: cs.LG
发布日期: 2026-04-29
💡 一句话要点
PAINT:面向自蒸馏推理器的部分解自适应插值训练
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自蒸馏 语言模型 推理能力 部分解 自适应训练 能量空间插值 数学问题求解
📋 核心要点
- 现有LLM推理方法在监督信号的质量和探索方式上存在不足,强化学习奖励稀疏,监督微调依赖固定轨迹。
- PAINT通过部分解掩盖和能量空间插值,自适应地利用已验证的解上下文,引导学生模型学习。
- 实验表明,PAINT在Qwen3模型上显著提升了数学推理能力,超越了现有自蒸馏方法。
📝 摘要(中文)
为了提升大型语言模型(LLM)的推理能力,需要与模型测试时状态对齐且在token级别提供信息的监督信号。强化学习通过可验证的奖励提供on-policy探索,但存在稀疏、高方差的信用分配问题;监督微调和蒸馏提供密集的训练目标,但通常在固定轨迹上训练或依赖更强的教师模型。最近的特权on-policy自蒸馏方法探索了一种中间方案,通过在已验证的解上下文中使用同一模型对学生模型的rollout进行评分。我们通过上下文重评分的视角重新审视这一设置:对于推理而言,重要的不仅是特权上下文是否可用,还包括应该揭示多少信息以及其分布应该如何塑造学生模型。我们提出了PAINT(Partial-solution Adaptive INterpolated Training,部分解自适应插值训练),它根据rollout-reference的重叠情况来掩盖已验证的解,并在稀疏的熵不匹配token位置上应用一个小的能量空间插值。在竞赛级别的数学基准测试中,PAINT在所有三个Qwen3规模上都持续优于强大的先前on-policy自蒸馏基线。在Qwen3-8B上,它将宏平均@12提高了2.1个点,超过了先前的基线,并超过了GRPO 2.9个点。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在复杂推理任务中,如何有效利用自身知识进行自蒸馏,从而提升推理能力的问题。现有方法,如强化学习,奖励信号稀疏且方差大;监督微调则依赖于固定的轨迹,无法充分探索模型自身的能力。因此,如何设计一种既能提供密集监督信号,又能鼓励模型进行有效探索的自蒸馏方法是关键。
核心思路:PAINT的核心思路是利用部分解(Partial Solution)作为上下文信息,自适应地指导学生模型的训练。通过掩盖已验证的解的一部分,并根据rollout和reference的重叠程度进行调整,使得学生模型能够学习到更有效的推理策略。同时,在熵不匹配的token位置进行能量空间插值,进一步引导模型学习。
技术框架:PAINT的整体框架如下:首先,模型进行rollout生成推理轨迹;然后,根据已验证的解,计算rollout和reference之间的重叠程度,并据此掩盖部分解;接着,在掩盖后的解上下文中使用模型对rollout进行评分;最后,在熵不匹配的token位置进行能量空间插值,并使用插值后的结果作为训练目标,更新模型参数。
关键创新:PAINT的关键创新在于其自适应的部分解掩盖策略和能量空间插值方法。与传统的自蒸馏方法不同,PAINT不是简单地使用完整的解作为监督信号,而是根据rollout的质量自适应地调整解的可见程度。此外,能量空间插值能够更有效地利用已验证的解的信息,引导模型学习。
关键设计:PAINT的关键设计包括:1)部分解掩盖的比例,根据rollout和reference的重叠程度动态调整;2)熵不匹配token位置的选择,选择那些模型预测不确定性较高的位置进行插值;3)能量空间插值的系数,控制已验证的解对学生模型的影响程度。
🖼️ 关键图片
📊 实验亮点
PAINT在Qwen3-8B模型上,相较于先前的on-policy自蒸馏基线,在宏平均@12指标上提升了2.1个点,超过了GRPO 2.9个点。实验结果表明,PAINT能够有效地提升模型的推理能力,并且在不同规模的模型上都具有良好的泛化性能。这些结果验证了PAINT方法的有效性和优越性。
🎯 应用场景
PAINT方法具有广泛的应用前景,可以应用于各种需要复杂推理能力的场景,例如数学问题求解、代码生成、知识图谱推理等。通过自蒸馏的方式,可以有效地提升模型的推理能力,降低对大规模标注数据的依赖,从而降低训练成本。该方法还可以应用于模型压缩和加速,通过将大型模型的知识迁移到小型模型,实现更高效的推理。
📄 摘要(原文)
Improving large language model (LLM) reasoning requires supervision that is both aligned with the model's own test-time states and informative at the token level. Reinforcement learning with verifiable rewards provides on-policy exploration but offers sparse, high-variance credit; supervised fine-tuning and distillation provide dense targets but often train on fixed trajectories or rely on stronger teachers. Recent privileged on-policy self-distillation explores a middle ground by scoring student rollouts with the same model under verified solution context. We revisit this setting through a contextual re-scoring lens: for reasoning, the important choices are not only whether privileged context is available, but how much of it should be revealed and where its distribution should shape the student. We propose PAINT (Partial-solution Adaptive INterpolated Training), which masks the verified solution according to rollout-reference overlap and applies a small energy-space interpolation on a sparse set of entropy-mismatch token positions. Across competition-level math benchmarks, PAINT consistently improves over a strong prior on-policy self-distillation baseline at all three Qwen3 scales. On Qwen3-8B, it raises macro Avg@12 by 2.1 points over this prior baseline and 2.9 points over GRPO.