Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2

📄 arXiv: 2502.03544v3 📥 PDF

作者: Yuri Chervonyi, Trieu H. Trinh, Miroslav Olšák, Xiaomeng Yang, Hoang Nguyen, Marcelo Menegali, Junehyuk Jung, Junsu Kim, Vikas Verma, Quoc V. Le, Thang Luong

分类: cs.AI, cs.LG

发布日期: 2025-02-05 (更新: 2025-12-08)

备注: 28 pages, 16 figures. V2: Clarified abstract, rewritten introduction, updated results on diagram generation, added acknowledgement section. V3: Added clarifications and a new section "Inequality rules", re-organized sections, added code link, now 34 pages

🔗 代码/项目: GITHUB


💡 一句话要点

AlphaGeometry2:超越奥数金牌选手水平的几何问题求解AI

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 几何问题求解 人工智能 奥林匹克数学 语言模型 知识共享 符号推理 AlphaGeometry2

📋 核心要点

  1. 现有几何问题求解AI在处理复杂、非构造性问题以及涉及运动和方程的问题时存在局限性,覆盖率不足。
  2. AlphaGeometry2通过扩展语言支持、改进搜索算法和知识共享机制,显著提升了几何问题求解能力。
  3. 实验表明,AlphaGeometry2在IMO几何问题上的求解率大幅提升,达到84%,超越了奥数金牌选手水平。

📝 摘要(中文)

本文介绍了AlphaGeometry2 (AG2),它是AlphaGeometry的显著改进版本,在解决奥林匹克几何问题方面已经超越了平均水平的金牌选手。为了实现这一目标,我们首先扩展了原始AlphaGeometry语言,以处理涉及物体运动的问题,以及包含角度、比率和距离的线性方程的问题。加上对非构造性问题的支持,这显著提高了AlphaGeometry语言对2000-2024年国际数学奥林匹克(IMO)几何问题的覆盖率,从66%提高到88%。AG2的搜索过程也通过使用Gemini架构来获得更好的语言建模,以及一种新颖的知识共享机制(能够在搜索树之间进行有效的通信)得到了极大的改进。结合对符号引擎和合成数据生成的进一步增强,我们将AG在过去25年中所有几何问题上的总体求解率显著提高到84%,而之前为54%。AG2也是在2024年国际数学奥林匹克竞赛中达到银牌标准的系统的一部分。最后,我们报告了在使用AG2作为一个完全自动化系统的一部分,以可靠地解决来自自然语言输入的几何问题方面取得的进展。

🔬 方法详解

问题定义:论文旨在解决复杂奥林匹克几何问题,现有方法在处理涉及物体运动、角度/比率/距离线性方程以及非构造性问题时存在覆盖率不足的问题,导致求解成功率较低。

核心思路:核心思路是通过扩展AlphaGeometry的语言表达能力,使其能够处理更广泛的几何问题类型。同时,改进搜索算法,利用Gemini架构进行更好的语言建模,并引入知识共享机制,提升搜索效率和问题求解能力。

技术框架:AlphaGeometry2的整体架构包括:1) 扩展的几何语言,支持运动、方程和非构造性问题;2) 基于Gemini架构的语言模型,用于指导搜索;3) 知识共享机制,允许不同搜索树之间传递信息;4) 改进的符号引擎,用于几何推理;5) 合成数据生成,用于模型训练。整个流程是从问题描述开始,通过语言模型指导搜索,利用符号引擎进行推理,最终得到问题的解。

关键创新:最重要的技术创新点在于扩展的几何语言和知识共享机制。扩展的几何语言使得AlphaGeometry2能够处理更复杂的问题类型,而知识共享机制则显著提高了搜索效率,避免了重复搜索。

关键设计:论文中关键的设计包括:1) 扩展几何语言的具体语法和语义;2) Gemini架构在语言建模中的应用方式,例如如何将几何信息编码到语言模型中;3) 知识共享机制的具体实现,例如如何选择和传递知识;4) 符号引擎的改进细节,例如如何优化推理规则。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AlphaGeometry2在过去25年的IMO几何问题上的求解率从54%提升至84%,超越了奥数金牌选手水平。该系统也是在2024年国际数学奥林匹克竞赛中达到银牌标准的系统的一部分,证明了其在复杂几何问题求解方面的强大能力。

🎯 应用场景

AlphaGeometry2可应用于自动化数学问题求解、教育领域(辅助教学、个性化学习)、科学研究(几何定理发现、辅助证明)等。未来,结合自然语言处理技术,有望实现从自然语言描述到问题求解的全自动流程,极大地拓展其应用范围。

📄 摘要(原文)

We present AlphaGeometry2 (AG2), a significantly improved version of AlphaGeometry introduced in (Trinh et al., 2024), which has now surpassed an average gold medalist in solving Olympiad geometry problems. To achieve this, we first extend the original AlphaGeometry language to tackle problems involving movements of objects, and problems containing linear equations of angles, ratios, and distances. This, together with support for non-constructive problems, has markedly improved the coverage rate of the AlphaGeometry language on International Math Olympiads (IMO) 2000-2024 geometry problems from 66% to 88%. The search process of AG2 has also been greatly improved through the use of Gemini architecture for better language modeling, and a novel knowledge-sharing mechanism that enables effective communication between search trees. Together with further enhancements to the symbolic engine and synthetic data generation, we have significantly boosted the overall solving rate of AG to 84% on all geometry problems over the last 25 years, compared to 54% previously. AG2 was also part of the system that achieved the silver-medal standard at IMO 2024 https://deepmind.google/blog/ai-solves-imo-problems-at-silver-medal-level/. Finally, we report progress towards using AG2 as a part of a fully automated system that reliably solves geometry problems from natural language input. Code: https://github.com/google-deepmind/alphageometry2.