Agentic Neurosymbolic Collaboration for Mathematical Discovery: A Case Study in Combinatorial Design

📄 arXiv: 2603.08322v1 📥 PDF

作者: Hai Xia, Carla P. Gomes, Bart Selman, Stefan Szeider

分类: cs.AI, cs.HC, math.CO

发布日期: 2026-03-09


💡 一句话要点

通过神经符号协作实现组合设计中的数学发现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经符号推理 组合设计 数学发现 大型语言模型 符号计算 人机协作 拉丁方阵 计算代数

📋 核心要点

  1. 核心问题:现有的数学发现方法在处理复杂组合设计问题时存在局限性,尤其是在拉丁方阵的研究中。
  2. 方法要点:本研究提出了一种神经符号协作的方法,结合了大型语言模型和符号计算工具,以实现有效的数学发现。
  3. 实验或效果:通过人机协作,成功得到了拉丁方阵不平衡性的紧下界,并在Lean 4中进行了正式验证。

📝 摘要(中文)

本研究通过神经符号推理的视角探讨数学发现,利用大型语言模型(LLM)驱动的AI代理与符号计算工具,以及人类的战略指导,共同在组合设计理论中取得新成果。主要成果是对拉丁方阵不平衡性的紧下界,特别是在难度较大的情况$n ext{ mod } 3 ext{ 为 } 1$下。我们重建了发现过程,分析了各个组成部分的认知贡献,发现AI代理在揭示隐藏结构和生成假设方面表现出色,而人类的引导则是将死胡同转变为有效研究的关键。实验结果表明,神经符号系统能够在纯数学领域产生真正的发现。

🔬 方法详解

问题定义:本论文旨在解决组合设计中拉丁方阵不平衡性的下界问题。现有方法在处理此类复杂问题时往往缺乏有效的推理和验证机制,导致研究进展缓慢。

核心思路:本研究的核心思路是通过神经符号推理,将AI代理与人类研究者的战略指导相结合,利用AI的计算能力和人类的创造性思维共同推动数学发现。

技术框架:整体架构包括三个主要模块:AI代理(基于大型语言模型)、符号计算组件(包括计算代数、约束求解器和模拟退火)以及人类研究者的引导。AI代理负责生成假设和揭示结构,符号组件提供严格验证,而人类则负责关键决策和方向调整。

关键创新:最重要的技术创新在于结合了神经网络和符号计算的优势,形成了一种新的协作模式,使得AI不仅能生成假设,还能通过符号计算进行验证,从而提高了数学发现的效率和准确性。

关键设计:在设计中,AI代理使用了大型语言模型进行假设生成,符号计算组件则采用了计算代数和约束求解技术,确保了结果的严谨性。关键参数设置和损失函数设计旨在优化AI的推理能力和符号验证的效率。

📊 实验亮点

实验结果表明,通过人机协作,成功得到了拉丁方阵不平衡性的紧下界$4n(n-1)/9$,并在Lean 4中进行了正式验证。这一发现展示了神经符号系统在纯数学领域的实际应用潜力。

🎯 应用场景

该研究的潜在应用领域包括数学研究、算法设计和教育等。通过神经符号协作,研究者可以更高效地探索复杂的数学问题,推动数学理论的发展。此外,该方法也可应用于其他领域的知识发现和问题求解,具有广泛的实际价值和未来影响。

📄 摘要(原文)

We study mathematical discovery through the lens of neurosymbolic reasoning, where an AI agent powered by a large language model (LLM), coupled with symbolic computation tools, and human strategic direction, jointly produced a new result in combinatorial design theory. The main result of this human-AI collaboration is a tight lower bound on the imbalance of Latin squares for the notoriously difficult case $n \equiv 1 \pmod{3}$. We reconstruct the discovery process from detailed interaction logs spanning multiple sessions over several days and identify the distinct cognitive contributions of each component. The AI agent proved effective at uncovering hidden structure and generating hypotheses. The symbolic component consists of computer algebra, constraint solvers, and simulated annealing, which provides rigorous verification and exhaustive enumeration. Human steering supplied the critical research pivot that transformed a dead end into a productive inquiry. Our analysis reveals that multi-model deliberation among frontier LLMs proved reliable for criticism and error detection but unreliable for constructive claims. The resulting human-AI mathematical contribution, a tight lower bound of $4n(n{-}1)/9$, is achieved via a novel class of near-perfect permutations. The bound was formally verified in Lean 4. Our experiments show that neurosymbolic systems can indeed produce genuine discoveries in pure mathematics.