When Can LLMs Learn to Reason with Weak Supervision?
作者: Salman Rahman, Jingyan Shen, Anna Mordvina, Hamid Palangi, Saadia Gabriel, Pavel Izmailov
分类: cs.LG, cs.AI
发布日期: 2026-04-20
💡 一句话要点
提出弱监督下的推理学习方法以提升LLM性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 弱监督学习 推理能力 大型语言模型 强化学习 模型泛化 自监督学习 数据稀缺
📋 核心要点
- 现有方法在构建高质量奖励信号方面面临挑战,尤其是在模型能力不断提升的背景下。
- 论文提出通过系统性研究弱监督条件下的推理学习,识别出推理可信度作为模型泛化能力的预测因素。
- 实验结果表明,结合持续预训练和监督微调的策略能够在三种弱监督设置下实现模型的泛化,显著提升性能。
📝 摘要(中文)
大型语言模型通过可验证奖励的强化学习(RLVR)在推理能力上取得了显著进展。然而,随着模型能力的提升,构建高质量的奖励信号变得愈加困难。因此,理解在弱监督条件下RLVR何时能够成功显得尤为重要。本文系统性地研究了不同模型和推理领域在稀缺数据、噪声奖励和自监督代理奖励等三种弱监督设置下的表现。研究发现,模型的泛化能力受训练奖励饱和动态的支配,能够泛化的模型在训练奖励和下游性能共同上升的预饱和阶段持续较长时间,而快速饱和的模型则倾向于记忆而非学习。我们还识别出推理的可信度作为预测模型所处状态的前置属性,输出多样性则无助于此。基于这些发现,我们解构了持续预训练和监督微调的贡献,发现针对明确推理轨迹的监督微调对弱监督下的泛化是必要的,而在领域数据上的持续预训练则增强了这一效果。
🔬 方法详解
问题定义:本文旨在解决在弱监督条件下大型语言模型(LLM)推理能力的提升问题。现有方法在高质量奖励信号构建上存在困难,导致模型泛化能力不足。
核心思路:论文通过系统的实证研究,探讨在稀缺数据、噪声奖励和自监督代理奖励等弱监督环境下,模型的泛化能力与训练奖励饱和动态之间的关系。
技术框架:研究采用了多种模型家族和推理领域,分析了模型在不同弱监督设置下的表现,重点关注推理的可信度和输出多样性对泛化能力的影响。
关键创新:最重要的创新点在于识别出推理可信度作为预测模型泛化能力的前置属性,且提出结合持续预训练与监督微调的策略以增强模型在弱监督下的表现。
关键设计:在实验中,采用了针对明确推理轨迹的监督微调,并在领域数据上进行持续预训练,以此来提升模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果显示,结合持续预训练和监督微调的策略使得Llama3.2-3B-Base模型在三种弱监督设置下均实现了泛化,显著提升了模型的推理性能,具体提升幅度未知。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、智能问答系统和自动推理等。通过提升大型语言模型在弱监督条件下的推理能力,能够更好地满足实际应用中的需求,推动智能系统的进一步发展。
📄 摘要(原文)
Large language models have achieved significant reasoning improvements through reinforcement learning with verifiable rewards (RLVR). Yet as model capabilities grow, constructing high-quality reward signals becomes increasingly difficult, making it essential to understand when RLVR can succeed under weaker forms of supervision. We conduct a systematic empirical study across diverse model families and reasoning domains under three weak supervision settings: scarce data, noisy rewards, and self-supervised proxy rewards. We find that generalization is governed by training reward saturation dynamics: models that generalize exhibit a prolonged pre-saturation phase during which training reward and downstream performance climb together, while models that saturate rapidly memorize rather than learn. We identify reasoning faithfulness, defined as the extent to which intermediate steps logically support the final answer, as the pre-RL property that predicts which regime a model falls into, while output diversity alone is uninformative. Motivated by these findings, we disentangle the contributions of continual pre-training and supervised fine-tuning, finding that SFT on explicit reasoning traces is necessary for generalization under weak supervision, while continual pre-training on domain data amplifies the effect. Applied together to Llama3.2-3B-Base, these interventions enable generalization across all three settings where the base model previously failed.