Cog-DRIFT: Exploration on Adaptively Reformulated Instances Enables Learning from Hard Reasoning Problems
作者: Justin Chih-Yao Chen, Archiki Prasad, Zaid Khan, Joykirat Singh, Runchu Tian, Elias Stengel-Eskin, Mohit Bansal
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-04-07
💡 一句话要点
Cog-DRIFT通过自适应重构实例,解决LLM在困难推理问题上的学习难题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 大型语言模型 推理能力 任务重构 自适应课程学习
📋 核心要点
- 现有LLM在困难推理问题上,由于缺乏有效的奖励信号,难以通过强化学习进行优化。
- Cog-DRIFT通过将难题重构为更简单的形式,并构建自适应课程,为模型提供更密集的学习信号。
- 实验表明,Cog-DRIFT显著提升了LLM在困难推理问题上的性能,并具有良好的泛化能力。
📝 摘要(中文)
本文提出了一种基于任务重构的简单而有效的解决方案,以解决LLM在可验证奖励强化学习(RLVR)中面临的推理能力瓶颈。当模型面对过于困难的问题时,由于无法获得有意义的奖励信号,导致学习停滞。Cog-DRIFT将具有挑战性的开放式问题转化为认知上更简单的变体,如多项选择和完形填空,这些变体保留了原始答案,同时减少了搜索空间并提供了更密集的学习信号。这些重构涵盖了从判别式到生成式任务的范围,用于引导学习:模型首先从结构化的、更容易的格式中学习,然后将这些知识迁移回原始的开放式问题,以提高性能。Cog-DRIFT构建重构变体,并根据难度将其组织成自适应课程。训练从简单到困难的格式进行,使模型能够从以前在标准RL后训练中产生零信号的问题中学习。实验表明,Cog-DRIFT不仅提高了原本无法解决的难题的性能,而且很好地泛化到其他保留的数据集。在2个模型和6个推理基准测试中,该方法始终优于标准GRPO和强大的引导探索基线。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在面对过于困难的推理问题时,无法有效学习的问题。传统的强化学习方法依赖于奖励信号,但当问题难度过高,模型无法给出正确答案时,奖励信号缺失,导致模型无法从这些问题中学习。现有方法的痛点在于缺乏有效的探索机制,难以克服这种“探索障碍”。
核心思路:论文的核心思路是通过任务重构,将困难的开放式问题转化为更简单的变体,例如多项选择题或完形填空题。这些变体保留了原始问题的答案,但降低了问题的难度,并提供了更密集的奖励信号。通过先在简单变体上进行学习,然后将学到的知识迁移到原始问题,从而克服探索障碍。
技术框架:Cog-DRIFT框架包含以下几个主要阶段:1) 任务重构:将原始问题转化为多种不同难度的变体。2) 自适应课程学习:根据模型在不同变体上的表现,动态调整训练课程,从简单到困难逐步学习。3) 强化学习训练:使用重构后的任务和自适应课程,对LLM进行强化学习训练。整体流程是从易到难,逐步提升模型在原始困难问题上的推理能力。
关键创新:Cog-DRIFT的关键创新在于将任务重构和自适应课程学习相结合,为LLM提供了一种有效的探索机制。与传统的强化学习方法相比,Cog-DRIFT能够从原本无法学习的困难问题中获取信息,从而显著提升模型的推理能力。此外,自适应课程学习能够根据模型的学习进度动态调整训练难度,进一步提高学习效率。
关键设计:论文中,任务重构的具体方法包括将开放式问题转化为多项选择题和完形填空题。自适应课程学习采用了一种基于模型表现的难度评估方法,根据模型在不同变体上的准确率动态调整训练顺序。强化学习训练采用GRPO算法,并针对重构后的任务进行了优化。具体的参数设置和损失函数细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Cog-DRIFT在Qwen和Llama模型上分别取得了+10.11%和+8.64%的绝对性能提升,显著优于标准GRPO和强引导探索基线。在6个推理基准测试中,Cog-DRIFT平均优于第二好的基线+4.72% (Qwen)和+3.23% (Llama)。此外,Cog-DRIFT还提高了测试时的pass@k指标,并提高了样本效率,证明了其有效性和泛化能力。
🎯 应用场景
Cog-DRIFT具有广泛的应用前景,可用于提升LLM在各种复杂推理任务中的性能,例如数学问题求解、代码生成、知识图谱推理等。该方法可以帮助LLM更好地理解和解决现实世界中的复杂问题,提高其在实际应用中的价值。未来,Cog-DRIFT可以进一步扩展到其他类型的任务和模型,并与其他探索方法相结合,以实现更强大的推理能力。
📄 摘要(原文)
Reinforcement learning from verifiable rewards (RLVR) has improved the reasoning abilities of LLMs, yet a fundamental limitation remains: models cannot learn from problems that are too difficult to solve under their current policy, as these yield no meaningful reward signal. We propose a simple yet effective solution based on task reformulation. We transform challenging open-ended problems into cognitively simpler variants -- such as multiple-choice and cloze formats -- that preserve the original answer while reducing the effective search space and providing denser learning signals. These reformulations span a spectrum from discriminative to generative tasks, which we exploit to bootstrap learning: models first learn from structured, easier formats, and this knowledge transfers back to improve performance on the original open-ended problems. Building on this insight, we introduce Cog-DRIFT, a framework that constructs reformulated variants and organizes them into an adaptive curriculum based on difficulty. Training progresses from easier to harder formats, enabling the model to learn from problems that previously yielded zero signal under standard RL post-training. Cog-DRIFT not only improves on the originally unsolvable hard problems (absolute +10.11% for Qwen and +8.64% for Llama) but also generalizes well to other held-out datasets. Across 2 models and 6 reasoning benchmarks, our method consistently outperforms standard GRPO and strong guided-exploration baselines. On average, Cog-DRIFT shows +4.72% (Qwen) and +3.23% (Llama) improvements over the second-best baseline. We further show that Cog-DRIFT improves pass@k at test time, and the curriculum improves sample efficiency. Overall, our results highlight task reformulation and curriculum learning as an effective paradigm for overcoming the exploration barrier in LLM post-training.