SUPERNOVA: Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions

作者: Ashima Suvarna, Kendrick Phan, Mehrab Beikzadeh, Hritik Bansal, Saadia Gabriel

分类: cs.AI, cs.LG

发布日期: 2026-04-09

备注: 23 Pages, 4 figures

🔗 代码/项目: GITHUB

💡 一句话要点

SUPERNOVA：利用自然指令上的强化学习提升LLM的通用推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 通用推理 指令调优 数据管理

📋 核心要点

现有基于可验证奖励强化学习的方法在形式化领域提升了LLM的推理能力，但在通用推理任务上仍面临挑战。
SUPERNOVA框架通过系统地调整指令调优数据集，将其蕴含的丰富推理模式应用于可验证奖励强化学习，从而提升通用推理能力。
实验结果表明，SUPERNOVA在多个推理基准测试中显著优于现有模型，例如在BBEH上实现了高达52.8%的相对改进。

📝 摘要（中文）

本文提出SUPERNOVA，一个用于可验证奖励强化学习（RLVR）的数据管理框架，旨在提升大型语言模型（LLM）的通用推理能力。现有方法在数学和代码等形式化领域取得了显著进展，但LLM在因果推理和时间理解等通用推理任务上仍然表现不佳。将RLVR扩展到通用推理的关键挑战在于缺乏高质量、可验证的训练数据，这些数据需要覆盖多样化的推理技能。SUPERNOVA的核心思想是，包含专家标注的指令调优数据集蕴含丰富的推理模式，可以系统地调整以适应RLVR。通过100多次受控RL实验，分析了数据设计选择如何影响下游推理性能，重点关注三个关键因素：源任务选择、任务混合策略以及用于提高数据质量的合成干预。结果表明，源任务选择至关重要，并且基于单个目标任务性能选择任务优于基于总体平均性能的策略。使用SUPERNOVA训练的模型在BBEH、Zebralogic和MMLU-Pro等具有挑战性的推理基准测试中优于强大的基线模型（例如，Qwen3.5）。特别是在BBEH上，SUPERNOVA训练的模型在不同模型尺寸上实现了高达52.8%的相对改进，证明了有原则的数据管理对于RLVR的有效性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在通用推理任务上的不足。现有方法，如在数学和代码等形式化领域表现良好的可验证奖励强化学习（RLVR），难以直接应用于需要因果推理、时间理解等能力的通用推理任务。主要痛点在于缺乏高质量、可验证的训练数据，这些数据需要覆盖广泛的推理技能。

核心思路：论文的核心思路是利用现有的指令调优数据集。这些数据集通常包含专家标注的ground-truth，蕴含着丰富的推理模式。通过系统地调整这些数据集，使其适应RLVR的训练需求，可以有效地提升LLM的通用推理能力。这种方法避免了从头开始构建大规模高质量推理数据集的困难。

技术框架：SUPERNOVA框架主要包含以下几个阶段：1) 源任务选择：从现有的指令调优数据集中选择合适的任务作为RLVR的训练数据。2) 任务混合策略：设计不同的策略来混合不同的任务，以提高模型的泛化能力。3) 合成干预：通过合成干预来提高数据的质量，例如通过修改问题或答案来增加数据的多样性。4) RLVR训练：使用经过处理的数据集对LLM进行RLVR训练，以提升其推理能力。

关键创新：SUPERNOVA的关键创新在于提出了一个系统化的数据管理框架，用于将现有的指令调优数据集转化为适用于RLVR训练的数据。通过对源任务选择、任务混合策略和合成干预等关键因素进行深入分析，为如何有效地利用人类标注资源来提升LLM的通用推理能力提供了指导。

关键设计：论文重点研究了三个关键因素：1) 源任务选择：比较了基于总体平均性能和基于单个目标任务性能的任务选择策略。2) 任务混合策略：探索了不同的任务混合比例和策略。3) 合成干预：设计了不同的干预方法来修改问题和答案，以增加数据的多样性。具体的参数设置和损失函数等技术细节在论文中没有详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用SUPERNOVA训练的模型在BBEH、Zebralogic和MMLU-Pro等具有挑战性的推理基准测试中优于强大的基线模型（例如，Qwen3.5）。特别是在BBEH上，SUPERNOVA训练的模型在不同模型尺寸上实现了高达52.8%的相对改进，证明了该方法的有效性。这些结果表明，有原则的数据管理对于RLVR至关重要。

🎯 应用场景

SUPERNOVA的研究成果可以广泛应用于需要通用推理能力的领域，例如智能客服、自动驾驶、医疗诊断等。通过提升LLM的推理能力，可以提高这些应用的智能化水平和解决问题的能力。未来，该方法可以进一步扩展到其他类型的推理任务，并与其他技术相结合，以实现更强大的通用人工智能。

📄 摘要（原文）

Reinforcement Learning with Verifiable Rewards (RLVR) has significantly improved large language model (LLM) reasoning in formal domains such as mathematics and code. Despite these advancements, LLMs still struggle with general reasoning tasks requiring capabilities such as causal inference and temporal understanding. Extending RLVR to general reasoning is fundamentally constrained by the lack of high-quality, verifiable training data that spans diverse reasoning skills. To address this challenge, we propose SUPERNOVA, a data curation framework for RLVR aimed at enhancing general reasoning. Our key insight is that instruction-tuning datasets containing expert-annotated ground-truth encode rich reasoning patterns that can be systematically adapted for RLVR. To study this, we conduct 100+ controlled RL experiments to analyze how data design choices impact downstream reasoning performance. In particular, we investigate three key factors: (i) source task selection, (ii) task mixing strategies, and (iii) synthetic interventions for improving data quality. Our analysis reveals that source task selection is non-trivial and has a significant impact on downstream reasoning performance. Moreover, selecting tasks based on their performance for individual target tasks outperforms strategies based on overall average performance. Finally, models trained on SUPERNOVA outperform strong baselines (e.g., Qwen3.5) on challenging reasoning benchmarks including BBEH, Zebralogic, and MMLU-Pro. In particular, training on SUPERNOVA yields relative improvements of up to 52.8\% on BBEH across model sizes, demonstrating the effectiveness of principled data curation for RLVR. Our findings provide practical insights for curating human-annotated resources to extend RLVR to general reasoning. The code and data is available at https://github.com/asuvarna31/supernova.

SUPERNOVA: Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理