System 2 thinking in OpenAI's o1-preview model: Near-perfect performance on a mathematics exam

📄 arXiv: 2410.07114v5 📥 PDF

作者: Joost de Winter, Dimitra Dodou, Yke Bauke Eisma

分类: cs.CY, cs.AI, cs.CL

发布日期: 2024-09-19 (更新: 2024-10-25)

期刊: Computers 13 (2024) 278

DOI: 10.3390/computers13110278


💡 一句话要点

OpenAI o1-preview模型在数学考试中展现近乎完美的System 2思维能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 System 2思维 数学推理 模型评估 自洽性

📋 核心要点

  1. 大型语言模型在System 2思维能力方面存在不足,难以进行深入的分析和推理。
  2. OpenAI的o1模型系列旨在提升模型的System 2推理能力,使其能够进行更深入的分析。
  3. 实验表明o1-preview模型在数学考试中表现出色,接近完美,验证了其System 2思维能力。

📝 摘要(中文)

人类认知过程通常分为System 1(快速、直觉思维)和System 2(缓慢、审慎推理)。先前,大型语言模型因缺乏System 2更深层次的分析能力而备受批评。2024年9月,OpenAI推出了旨在处理类似System 2推理的o1模型系列。尽管OpenAI的基准测试结果很有希望,但仍需要独立的验证。本研究中,我们对o1-preview模型进行了两次荷兰“Mathematics B”期末考试测试,分别获得了76分满分中的76分和74分。作为参考,在荷兰的16414名学生中,只有24名获得了满分。相比之下,GPT-4o模型分别获得了76分中的66分和62分,远高于荷兰学生的平均分40.63分。两个模型都无法访问考试图表。由于存在模型污染的风险(即o1-preview和GPT-4o的知识截止日期在考试在线发布之后),我们使用考试截止日期之后发布的新Mathematics B考试重复了该过程。结果再次表明o1-preview表现强劲(97.8% percentile),这表明污染不是一个因素。我们还表明,o1-preview的输出存在一些可变性,这意味着有时存在“运气”(答案正确)或“坏运气”(输出发散为不正确)。我们证明了自洽性方法(即重复提示并选择最常见的答案)是识别正确答案的有用策略。结论是,虽然OpenAI的新模型系列具有巨大的潜力,但必须考虑某些风险。

🔬 方法详解

问题定义:论文旨在评估OpenAI最新发布的o1-preview模型在需要System 2思维的数学问题上的表现。现有大型语言模型在需要深度推理和分析的数学问题上表现不佳,难以达到人类水平,尤其是在没有外部工具辅助的情况下。

核心思路:论文的核心思路是通过在标准化的数学考试上评估o1-preview模型的表现,来验证其是否具备了更强的System 2思维能力。通过与GPT-4o模型以及荷兰学生的考试成绩进行对比,来评估o1-preview模型的性能。同时,通过重复测试和自洽性方法来提高答案的准确性。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 选择合适的数学考试题目(荷兰Mathematics B期末考试);2) 使用o1-preview和GPT-4o模型进行答题,不提供考试图表;3) 对比两个模型的答题结果与荷兰学生的平均成绩;4) 为了排除模型污染的风险,使用考试截止日期之后发布的考试题目进行重复测试;5) 使用自洽性方法,即多次prompt模型,选择最常见的答案,以提高答案的准确性。

关键创新:该研究的关键创新在于独立验证了OpenAI宣称的o1-preview模型在System 2思维能力上的提升。通过对比实验,证明了o1-preview模型在数学考试中的卓越表现,并探讨了模型输出的可变性以及自洽性方法在提高答案准确性方面的作用。

关键设计:论文的关键设计包括:1) 选择荷兰Mathematics B期末考试作为评估基准,该考试需要较强的逻辑推理和数学分析能力;2) 采用重复测试的方法,并使用考试截止日期之后发布的考试题目,以排除模型污染的风险;3) 使用自洽性方法,通过多次prompt模型并选择最常见的答案,来提高答案的准确性。具体的参数设置和网络结构等技术细节未知。

📊 实验亮点

o1-preview模型在荷兰Mathematics B期末考试中取得了接近满分的成绩(76/76和74/76),远超GPT-4o模型(66/76和62/76)以及荷兰学生的平均水平(40.63/76)。即使使用考试截止日期之后发布的题目进行测试,o1-preview模型仍然表现出色(97.8% percentile),验证了其强大的System 2思维能力。

🎯 应用场景

该研究成果表明,大型语言模型在复杂推理和问题解决方面具有巨大的潜力,可应用于教育、科研、金融等领域。例如,可以开发智能辅导系统,帮助学生理解和解决复杂的数学问题;也可以用于辅助科研人员进行数据分析和模型构建。未来,随着模型能力的不断提升,有望在更多领域实现智能化应用。

📄 摘要(原文)

The processes underlying human cognition are often divided into System 1, which involves fast, intuitive thinking, and System 2, which involves slow, deliberate reasoning. Previously, large language models were criticized for lacking the deeper, more analytical capabilities of System 2. In September 2024, OpenAI introduced the o1 model series, designed to handle System 2-like reasoning. While OpenAI's benchmarks are promising, independent validation is still needed. In this study, we tested the o1-preview model twice on the Dutch 'Mathematics B' final exam. It scored a near-perfect 76 and 74 out of 76 points. For context, only 24 out of 16,414 students in the Netherlands achieved a perfect score. By comparison, the GPT-4o model scored 66 and 62 out of 76, well above the Dutch students' average of 40.63 points. Neither model had access to the exam figures. Since there was a risk of model contami-nation (i.e., the knowledge cutoff for o1-preview and GPT-4o was after the exam was published online), we repeated the procedure with a new Mathematics B exam that was published after the cutoff date. The results again indicated that o1-preview performed strongly (97.8th percentile), which suggests that contamination was not a factor. We also show that there is some variability in the output of o1-preview, which means that sometimes there is 'luck' (the answer is correct) or 'bad luck' (the output has diverged into something that is incorrect). We demonstrate that the self-consistency approach, where repeated prompts are given and the most common answer is selected, is a useful strategy for identifying the correct answer. It is concluded that while OpenAI's new model series holds great potential, certain risks must be considered.