Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning
作者: Haiteng Zhao, Junhao Shen, Yiming Zhang, Songyang Gao, Kuikun Liu, Tianyou Ma, Fan Zheng, Dahua Lin, Wenwei Zhang, Kai Chen
分类: cs.AI
发布日期: 2025-12-11 (更新: 2025-12-12)
💡 一句话要点
提出InternGeometry,通过复杂度提升强化学习实现奥赛级几何问题求解能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 几何问题求解 大型语言模型 强化学习 符号推理 辅助线构造
📋 核心要点
- 现有几何问题求解AI依赖大规模数据和搜索,缺乏辅助线构造的有效启发式方法。
- InternGeometry通过迭代提议、符号验证和反馈指导,克服启发式限制,并采用动态记忆机制。
- InternGeometry在IMO几何问题上超越金牌选手水平,仅使用少量数据,并能提出新颖辅助线。
📝 摘要(中文)
本文提出InternGeometry,一个基于大型语言模型(LLM)的几何问题求解Agent,旨在克服几何辅助线构造的启发式限制。InternGeometry通过迭代提出命题和辅助构造,利用符号引擎验证,并根据引擎反馈指导后续提议。动态记忆机制使其能够与符号引擎进行超过两百次的交互。为了加速学习,引入了复杂度提升强化学习(CBRL),逐步增加训练问题的复杂度。基于InternThinker-32B,InternGeometry在50道IMO几何问题(2000-2024)中解决了44道,超过了平均金牌获得者的分数(40.9),仅使用了1.3万个训练样本,是AlphaGeometry 2所用数据的0.004%。InternGeometry还能为IMO问题提出人类解法中未出现的新颖辅助构造。模型、数据和符号引擎将被开源。
🔬 方法详解
问题定义:几何问题求解,特别是IMO级别的几何问题,需要强大的逻辑推理能力和创造性的辅助线构造能力。现有方法,如AlphaGeometry 2,虽然取得了显著成果,但严重依赖大规模的数据合成和搜索,计算成本高昂,且泛化能力可能受限。核心痛点在于如何让AI在少量数据下,具备人类专家级别的几何直觉和辅助线构造能力。
核心思路:InternGeometry的核心思路是利用大型语言模型(LLM)的强大推理能力,结合符号引擎的精确验证能力,构建一个迭代式的几何问题求解Agent。通过不断提出命题和辅助构造,并利用符号引擎进行验证,LLM可以从反馈中学习,逐步逼近问题的解。这种迭代式的探索方式模拟了人类解决几何问题的过程。
技术框架:InternGeometry的整体框架包含以下几个主要模块:1) 命题和辅助构造提议模块:基于LLM,负责根据当前已知信息,提出可能的命题和辅助构造。2) 符号引擎验证模块:使用符号引擎对提议的命题和辅助构造进行验证,判断其正确性。3) 动态记忆模块:记录历史的提议、验证结果和反馈信息,为后续的提议提供上下文。4) 复杂度提升强化学习(CBRL)模块:在训练过程中,逐步增加问题的复杂度,引导LLM学习更高级的几何知识和解题技巧。整个流程是一个迭代循环,直到找到问题的解或达到最大迭代次数。
关键创新:InternGeometry的关键创新在于将LLM的推理能力与符号引擎的验证能力相结合,构建了一个迭代式的几何问题求解Agent。此外,CBRL的引入使得LLM能够在少量数据下,快速学习到解决复杂几何问题的能力。与现有方法相比,InternGeometry不需要大规模的数据合成和搜索,计算成本更低,且泛化能力更强。
关键设计:CBRL是关键的设计。它通过在训练的不同阶段,逐步增加合成问题的难度,来引导模型学习。具体来说,可以从简单的三角形问题开始,逐步过渡到包含更多几何元素的复杂问题。此外,动态记忆模块的设计也至关重要,它需要有效地存储和检索历史信息,以便LLM能够更好地利用上下文进行推理。损失函数的设计也需要考虑如何鼓励LLM提出有价值的命题和辅助构造,并避免无效的探索。
🖼️ 关键图片
📊 实验亮点
InternGeometry在50道IMO几何问题(2000-2024)中解决了44道,超过了平均金牌获得者的分数(40.9)。更重要的是,它仅使用了1.3万个训练样本,是AlphaGeometry 2所用数据的0.004%。此外,InternGeometry还能为IMO问题提出人类解法中未出现的新颖辅助构造,展现了其强大的创造性。
🎯 应用场景
InternGeometry的研究成果可应用于自动化数学推理、几何定理发现、教育辅助工具等领域。该技术有望提升AI在复杂逻辑推理任务中的表现,并为数学教育提供更智能化的解决方案。未来,该技术还可能扩展到其他需要复杂推理和规划的领域,如机器人导航、程序设计等。
📄 摘要(原文)
Large language model (LLM) agents exhibit strong mathematical problem-solving abilities and can even solve International Mathematical Olympiad (IMO) level problems with the assistance of formal proof systems. However, due to weak heuristics for auxiliary constructions, AI for geometry problem solving remains dominated by expert models such as AlphaGeometry 2, which rely heavily on large-scale data synthesis and search for both training and evaluation. In this work, we make the first attempt to build a medalist-level LLM agent for geometry and present InternGeometry. InternGeometry overcomes the heuristic limitations in geometry by iteratively proposing propositions and auxiliary constructions, verifying them with a symbolic engine, and reflecting on the engine's feedback to guide subsequent proposals. A dynamic memory mechanism enables InternGeometry to conduct more than two hundred interactions with the symbolic engine per problem. To further accelerate learning, we introduce Complexity-Boosting Reinforcement Learning (CBRL), which gradually increases the complexity of synthesized problems across training stages. Built on InternThinker-32B, InternGeometry solves 44 of 50 IMO geometry problems (2000-2024), exceeding the average gold medalist score (40.9), using only 13K training examples, just 0.004% of the data used by AlphaGeometry 2, demonstrating the potential of LLM agents on expert-level geometry tasks. InternGeometry can also propose novel auxiliary constructions for IMO problems that do not appear in human solutions. We will release the model, data, and symbolic engine to support future research.