Assessing the Creativity of LLMs in Proposing Novel Solutions to Mathematical Problems

📄 arXiv: 2410.18336v1 📥 PDF

作者: Junyi Ye, Jingyi Gu, Xinyun Zhao, Wenpeng Yin, Guiling Wang

分类: cs.CL, cs.AI

发布日期: 2024-10-24


💡 一句话要点

提出CreativeMath基准,评估LLM在数学问题上提出创新解法的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 创造性问题解决 基准测试 AI辅助数学发现

📋 核心要点

  1. 现有研究主要关注LLM解决数学问题的正确性,忽略了其在提出创新解法方面的潜力。
  2. 论文提出CreativeMath基准,旨在评估LLM在已知解法的基础上,提出新颖数学解题思路的能力。
  3. 实验结果表明,LLM在创造性问题解决能力上存在差异,Gemini-1.5-Pro模型表现最佳。

📝 摘要(中文)

人工智能系统在数学方面的能力是复杂且多方面的。现有研究主要集中在AI生成的数学问题解决方案的正确性上。本文认为,除了产生正确的答案之外,AI系统还应该能够开发或协助人类开发解决数学挑战的新颖解决方案。本研究探索了大型语言模型(LLM)在数学推理中的创造潜力,这是先前研究中关注较少的一个方面。我们引入了一个新的框架和基准CreativeMath,它包含从中学课程到奥林匹克竞赛的问题,旨在评估LLM在提供一些已知解决方案后提出创新解决方案的能力。实验表明,虽然LLM在标准数学任务上表现良好,但它们在创造性问题解决方面的能力差异很大。值得注意的是,Gemini-1.5-Pro模型在生成新颖解决方案方面优于其他LLM。这项研究开辟了评估AI创造力的新领域,揭示了LLM在促进数学创新方面的优势和局限性,并为AI辅助数学发现的未来发展奠定了基础。

🔬 方法详解

问题定义:论文旨在解决如何评估大型语言模型(LLM)在数学问题上提出创新性解决方案的能力。现有方法主要关注LLM解决数学问题的正确性,而忽略了其创造性,即能否在已知解法的基础上,提出不同的、新颖的解题思路。这种创造性对于AI辅助数学发现至关重要。

核心思路:论文的核心思路是构建一个包含不同难度级别数学问题的基准测试集,并设计评估指标来衡量LLM生成解决方案的新颖性。通过提供一些已知的解决方案作为上下文,激发LLM产生不同的解题思路,并评估这些思路的独特性和有效性。

技术框架:论文提出了CreativeMath框架,主要包含以下几个阶段:1) 问题选择:从中学课程到奥林匹克竞赛等不同难度级别选择数学问题。2) 已知解法收集:收集每个问题的多个已知解法,作为LLM的输入上下文。3) LLM解法生成:使用不同的LLM生成新的解法。4) 解法评估:使用人工评估和自动评估相结合的方式,评估生成解法的新颖性和正确性。

关键创新:该论文最重要的技术创新点在于提出了CreativeMath基准,这是一个专门用于评估LLM在数学问题上创造性解决能力的基准。与现有基准不同,CreativeMath不仅关注解题的正确性,更关注解题思路的新颖性。此外,论文还设计了相应的评估指标,用于衡量解法的新颖程度。

关键设计:在问题选择方面,CreativeMath包含了不同难度级别的数学问题,以全面评估LLM的创造力。在评估指标方面,论文采用了人工评估和自动评估相结合的方式,以保证评估的准确性和客观性。具体来说,人工评估主要关注解法的新颖性和正确性,而自动评估则使用一些启发式规则来衡量解法的独特性。

📊 实验亮点

实验结果表明,不同的LLM在CreativeMath基准上的表现差异显著。Gemini-1.5-Pro模型在生成新颖解决方案方面优于其他LLM,表明其在数学创造力方面具有一定的优势。然而,所有LLM在创造性问题解决方面仍有很大的提升空间,尤其是在生成完全原创且正确的解法方面。

🎯 应用场景

该研究成果可应用于AI辅助数学发现、教育和科研领域。通过评估和提升LLM的创造性解题能力,可以帮助数学家发现新的定理和证明方法,辅助学生学习数学,并为科研人员提供新的研究思路。此外,该研究还可以推广到其他需要创造性解决问题的领域,例如科学发现、工程设计等。

📄 摘要(原文)

The mathematical capabilities of AI systems are complex and multifaceted. Most existing research has predominantly focused on the correctness of AI-generated solutions to mathematical problems. In this work, we argue that beyond producing correct answers, AI systems should also be capable of, or assist humans in, developing novel solutions to mathematical challenges. This study explores the creative potential of Large Language Models (LLMs) in mathematical reasoning, an aspect that has received limited attention in prior research. We introduce a novel framework and benchmark, CreativeMath, which encompasses problems ranging from middle school curricula to Olympic-level competitions, designed to assess LLMs' ability to propose innovative solutions after some known solutions have been provided. Our experiments demonstrate that, while LLMs perform well on standard mathematical tasks, their capacity for creative problem-solving varies considerably. Notably, the Gemini-1.5-Pro model outperformed other LLMs in generating novel solutions. This research opens a new frontier in evaluating AI creativity, shedding light on both the strengths and limitations of LLMs in fostering mathematical innovation, and setting the stage for future developments in AI-assisted mathematical discovery.