Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving
作者: Songyang Gao, Yuzhe Gu, Zijian Wu, Lingkai Kong, Wenwei Zhang, Zhongrui Cai, Fan Zheng, Tianyou Ma, Junhao Shen, Haiteng Zhao, Duanyang Zhang, Huilun Zhang, Kuikun Liu, Chengqi Lyu, Yanhui Duan, Chiyu Chen, Ningsheng Ma, Jianfei Gao, Han Lyu, Dahua Lin, Kai Chen
分类: cs.CL, cs.AI
发布日期: 2025-12-11 (更新: 2025-12-12)
💡 一句话要点
提出Intern-S1-MO,一种用于解决奥林匹克数学题的长程推理Agent
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长程推理 多Agent系统 强化学习 数学问题求解 引理记忆 分层推理 大型推理模型
📋 核心要点
- 现有大型推理模型在解决复杂数学问题时,受限于推理上下文长度,难以应对IMO级别难题。
- 提出Intern-S1-MO,采用多Agent系统进行多轮分层推理,并维护引理记忆,突破上下文约束。
- 通过OREAL-H强化学习框架训练LRM,提升推理能力,实验表明在多个基准测试中超越现有模型。
📝 摘要(中文)
大型推理模型(LRMs)通过思维链(CoT)技术和基于可验证奖励的强化学习(RLVR)扩展了数学推理的边界,能够解决AIME级别的问题。然而,LRMs的性能严重依赖于扩展的推理上下文长度。对于解决像国际数学奥林匹克(IMO)中的超难问题,所需的推理复杂度超过了LRM在一轮中可以探索的空间。以前的工作试图扩展LRMs的推理上下文,但仍然是基于提示的,并且建立在专有模型之上,缺乏系统的结构和训练管道。因此,本文介绍了一种长程数学Agent Intern-S1-MO,它进行多轮分层推理,由一个基于LRM的多Agent系统组成,包括推理、总结和验证。通过以引理的形式维护紧凑的记忆,Intern-S1-MO可以更自由地探索多个推理阶段中富含引理的推理空间,从而突破IMO级别数学问题的上下文约束。此外,我们提出了OREAL-H,一个RL框架,用于使用在线探索的轨迹训练LRM,以同时引导LRM的推理能力并提升Intern-S1-MO的整体性能。实验表明,Intern-S1-MO在IMO2025的非几何问题上获得了35分中的26分,与银牌获得者的表现相匹配。它还在HMMT2025、AIME2025和CNMO2025等推理基准测试中超越了当前先进的LRM。此外,我们的Agent正式参加了CMO2025,并在人类专家的评判下获得了102/126的分数,达到了金牌水平。
🔬 方法详解
问题定义:论文旨在解决大型推理模型(LRM)在解决国际数学奥林匹克(IMO)级别难题时,由于推理复杂度高、推理链条长,超出模型单轮推理上下文长度限制的问题。现有方法主要依赖于提示工程或构建于私有模型之上,缺乏系统性的结构和训练流程,难以有效解决此类问题。
核心思路:论文的核心思路是构建一个长程推理Agent,通过多轮分层推理的方式,将复杂的推理过程分解为多个阶段,并在每个阶段维护一个紧凑的引理记忆,从而突破单轮推理的上下文长度限制。Agent通过不断探索和总结引理,逐步逼近问题的解。
技术框架:Intern-S1-MO由一个基于LRM的多Agent系统组成,包含以下主要模块:推理Agent负责生成推理步骤;总结Agent负责将推理过程中的关键信息提炼为引理并存储;验证Agent负责验证引理的正确性。这些Agent协同工作,通过多轮迭代,逐步构建完整的推理链。此外,论文还提出了OREAL-H强化学习框架,用于在线训练LRM,提升其推理能力。
关键创新:论文的关键创新在于提出了一个多Agent协作的长程推理框架,并结合引理记忆机制,有效突破了LRM的上下文长度限制,使其能够处理IMO级别的复杂数学问题。同时,提出的OREAL-H强化学习框架能够在线提升LRM的推理能力,进一步增强了Agent的整体性能。
关键设计:OREAL-H框架使用在线探索的轨迹来训练LRM,目标是最大化Agent在解决问题上的奖励。损失函数的设计需要平衡推理的正确性和效率。引理记忆的存储和检索机制也至关重要,需要保证引理的有效性和可访问性。具体的网络结构和参数设置在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
Intern-S1-MO在IMO2025非几何问题上获得26/35分,达到银牌水平,并在HMMT2025、AIME2025和CNMO2025等基准测试中超越了现有先进LRM。在CMO2025中,该Agent获得102/126分,达到金牌水平,证明了其在解决复杂数学问题方面的强大能力。
🎯 应用场景
该研究成果可应用于自动数学解题、科学发现、复杂问题求解等领域。通过构建具有长程推理能力的Agent,可以辅助科研人员进行更深入的探索和研究,加速科学发现的进程。此外,该技术还可应用于教育领域,为学生提供个性化的学习辅导。
📄 摘要(原文)
Large Reasoning Models (LRMs) have expanded the mathematical reasoning frontier through Chain-of-Thought (CoT) techniques and Reinforcement Learning with Verifiable Rewards (RLVR), capable of solving AIME-level problems. However, the performance of LRMs is heavily dependent on the extended reasoning context length. For solving ultra-hard problems like those in the International Mathematical Olympiad (IMO), the required reasoning complexity surpasses the space that an LRM can explore in a single round. Previous works attempt to extend the reasoning context of LRMs but remain prompt-based and built upon proprietary models, lacking systematic structures and training pipelines. Therefore, this paper introduces Intern-S1-MO, a long-horizon math agent that conducts multi-round hierarchical reasoning, composed of an LRM-based multi-agent system including reasoning, summary, and verification. By maintaining a compact memory in the form of lemmas, Intern-S1-MO can more freely explore the lemma-rich reasoning spaces in multiple reasoning stages, thereby breaking through the context constraints for IMO-level math problems. Furthermore, we propose OREAL-H, an RL framework for training the LRM using the online explored trajectories to simultaneously bootstrap the reasoning ability of LRM and elevate the overall performance of Intern-S1-MO. Experiments show that Intern-S1-MO can obtain 26 out of 35 points on the non-geometry problems of IMO2025, matching the performance of silver medalists. It also surpasses the current advanced LRMs on inference benchmarks such as HMMT2025, AIME2025, and CNMO2025. In addition, our agent officially participates in CMO2025 and achieves a score of 102/126 under the judgment of human experts, reaching the gold medal level.