Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling
作者: Yafu Li, Runzhe Zhan, Haoran Zhang, Shunkai Zhang, Yizhuo Li, Zhilin Wang, Jiacheng Chen, Futing Wang, Xuyang Hu, Yuchen Fan, Bangjie Xu, Yucheng Su, Xinmiao Han, Chenxi Li, Haodi Lei, Yufeng Zhao, Zejin Lin, Qianjia Cheng, Tong Zhu, Xiaoye Qu, Ganqu Cui, Peng Ye, Yun Luo, Zhouchen Lin, Yu Qiao, Bowen Zhou, Ning Ding, Yu Cheng
分类: cs.AI, cs.CL
发布日期: 2026-05-13
备注: Technical Report. 77 pages
💡 一句话要点
提出一种简单统一的扩展方法,使推理模型达到奥林匹克竞赛金牌水平。
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)
关键词: 推理模型 强化学习 奥林匹克竞赛 长程推理 自我检查 逆困惑度 监督微调 科学推理
📋 核心要点
- 现有推理模型在解决复杂数学和科学问题时面临长程推理和严谨性不足的挑战。
- 论文提出一种简单统一的流程,通过逆困惑度SFT、两阶段RL和测试时扩展,提升模型推理能力。
- 实验表明,该方法训练的模型SU-01在奥林匹克竞赛中达到金牌水平,并具有良好的泛化能力。
📝 摘要(中文)
本文介绍了一种简单而统一的方法,用于将预训练的推理骨干模型转化为严谨的奥林匹克竞赛级别的解题器。该方法首先使用反困惑度课程进行SFT(监督微调),以灌输严格的证明搜索和自我检查行为,然后通过一个两阶段的强化学习(RL)流程来扩展这些行为,该流程从具有可验证奖励的RL进展到更精细的证明级别的RL,最后通过测试时扩展来提高解决问题的性能。应用此方法,我们使用SFT在约34万个小于8K token的轨迹上训练了一个30B-A3B骨干模型,然后进行了200步RL。由此产生的模型SU-01支持在超过10万token的轨迹上进行困难问题的稳定推理,同时在数学和物理奥林匹克竞赛中达到金牌水平,包括IMO 2025/USAMO 2026和IPhO 2024/2025。它还展示了科学推理对数学和物理以外领域的强大泛化能力。
🔬 方法详解
问题定义:论文旨在解决现有推理模型在复杂数学和物理问题上推理能力不足的问题,尤其是在需要长程推理和严谨证明的奥林匹克竞赛级别的问题上。现有方法通常难以保证推理的正确性和完整性,并且缺乏有效的自我检查机制。
核心思路:论文的核心思路是通过一个简单而统一的流程,逐步提升模型的推理能力。首先,通过逆困惑度SFT训练模型进行严格的证明搜索和自我检查。然后,通过两阶段RL扩展这些行为,从可验证奖励到证明级别的奖励,逐步提升模型的推理能力。最后,通过测试时扩展进一步提高解决问题的性能。这种逐步提升的方法旨在使模型能够处理更复杂的问题,并保证推理的正确性和严谨性。
技术框架:整体框架包含三个主要阶段:1) 逆困惑度SFT:使用逆困惑度作为训练目标,鼓励模型生成更严谨的证明过程。2) 两阶段RL:第一阶段使用可验证的奖励信号进行训练,例如中间步骤的正确性。第二阶段使用更精细的证明级别的奖励信号,例如整个证明的正确性。3) 测试时扩展:在测试时,通过多种策略(具体策略未知)进一步提高解决问题的性能。
关键创新:论文的关键创新在于提出了一种简单而统一的流程,能够有效地提升模型的推理能力,使其达到奥林匹克竞赛金牌水平。该流程结合了逆困惑度SFT、两阶段RL和测试时扩展,能够逐步提升模型的推理能力,并保证推理的正确性和严谨性。此外,使用逆困惑度进行SFT也是一个创新点,它能够有效地鼓励模型生成更严谨的证明过程。
关键设计:论文中涉及的关键设计包括:1) 逆困惑度SFT的训练目标函数(具体形式未知)。2) 两阶段RL的奖励函数设计,包括可验证奖励和证明级别奖励的具体形式(具体形式未知)。3) 测试时扩展的具体策略(具体策略未知)。4) 模型架构的选择,使用了30B-A3B骨干模型。5) SFT训练的数据量和RL训练的步数,分别为34万个sub-8K-token轨迹和200步。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法训练的模型SU-01在数学和物理奥林匹克竞赛中达到金牌水平,包括IMO 2025/USAMO 2026和IPhO 2024/2025。此外,该模型还展示了科学推理对数学和物理以外领域的强大泛化能力(具体数据未知)。这些结果表明,该方法能够有效地提升模型的推理能力,使其能够解决复杂的问题。
🎯 应用场景
该研究成果可应用于需要高精度和严谨推理的领域,例如科学研究、金融分析、法律推理等。通过提升模型的推理能力,可以帮助人们更有效地解决复杂问题,并做出更明智的决策。此外,该研究还可以促进人工智能技术在教育领域的应用,例如智能辅导系统和自动阅卷系统。
📄 摘要(原文)
Recent progress in reasoning models has substantially advanced long-horizon mathematical and scientific problem solving, with several systems now reaching gold-medal-level performance on International Mathematical Olympiad (IMO) and International Physics Olympiad (IPhO) problems. In this paper, we introduce a simple and unified recipe for converting a post-trained reasoning backbone into a rigorous olympiad-level solver. The recipe first uses a reverse-perplexity curriculum for SFT to instill rigorous proof-search and self-checking behaviors, then scales these behaviors through a two-stage RL pipeline that progresses from RL with verifiable rewards to more delicate proof-level RL, and finally boosts solving performance with test-time scaling. Applying this recipe, we train a 30B-A3B backbone with SFT on around 340K sub-8K-token trajectories followed by 200 RL steps. The resulting model, SU-01, supports stable reasoning on difficult problems with trajectories exceeding 100K tokens, while achieving gold-medal-level performance on mathematical and physical olympiad competitions, including IMO 2025/USAMO 2026 and IPhO 2024/2025. It also demonstrates strong generalization of scientific reasoning to domains beyond mathematics and physics.