Understanding and Benchmarking Artificial Intelligence: OpenAI's o3 Is Not AGI

📄 arXiv: 2501.07458v1 📥 PDF

作者: Rolf Pfister, Hansueli Jud

分类: cs.AI, cs.PF

发布日期: 2025-01-13

备注: 15 pages


💡 一句话要点

批判性分析OpenAI o3:并非通用人工智能,并提出更全面的智能评估基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 通用人工智能 智能评估 大型语言模型 基准测试 OpenAI o3 ARC-AGI 智能定义

📋 核心要点

  1. 现有智能评估基准(如ARC-AGI)侧重于特定类型问题,无法有效衡量通用人工智能。
  2. 论文提出一种新的智能理解框架,强调智能体在多样化环境和目标下的效率和知识依赖性。
  3. 论文建议设计更全面的智能评估基准,包含更多未知任务,以更准确地评估AGI进展。

📝 摘要(中文)

OpenAI的o3在ARC-AGI基准测试中取得了87.5%的高分,引发了关于基于大型语言模型(LLM)的系统,特别是o3,是否展现了智能以及在通用人工智能(AGI)方面取得进展的讨论。本文基于ARC-AGI创建者François Chollet对技能和智能的区分,提出了对智能的新理解:智能体越能在更多样化的世界中,以更少的知识高效地实现更多样化的目标,就越智能。对ARC-AGI基准测试的分析表明,其任务代表了一种非常特殊的问题类型,可以通过大量试验预定义操作的组合来解决。o3也采用了这种方法,通过大量使用计算能力获得了高分。然而,对于物理世界和人类领域中的大多数问题,解决方案无法提前测试,也无法获得预定义的操作。因此,像o3那样大量试验预定义操作不能成为AGI的基础——相反,需要新的方法,能够在没有现有技能的情况下可靠地解决各种问题。为了支持这一发展,本文概述了一种新的智能基准,该基准涵盖了更多样化的待解决的未知任务,从而能够全面评估智能以及在AGI方面取得的进展。

🔬 方法详解

问题定义:现有的人工智能评估基准,例如ARC-AGI,被认为过于狭隘,无法真实反映通用人工智能(AGI)的进展。这些基准往往侧重于特定类型的问题,例如预定义操作的组合,而忽略了现实世界中问题的多样性和复杂性。现有方法,如OpenAI的o3,虽然在这些基准上表现出色,但其成功依赖于大量的计算资源和预定义操作的试验,这并不适用于解决现实世界中的许多问题。

核心思路:论文的核心思路是重新定义智能,并基于新的定义提出更全面的智能评估方法。论文认为,一个智能体越能在更多样化的世界中,以更少的知识高效地实现更多样化的目标,就越智能。基于此,论文强调了智能体在面对未知任务时的泛化能力和适应能力,而不是仅仅依赖于预先训练的技能。

技术框架:论文并没有提出一个具体的、可执行的技术框架,而是侧重于对现有智能评估方法的批判性分析,并提出了设计新的、更全面的智能评估基准的原则。这个新的基准应该包含更多样化的、未知的任务,以测试智能体在没有现有技能的情况下解决问题的能力。论文建议关注任务的多样性、环境的复杂性以及对先验知识的依赖程度。

关键创新:论文的关键创新在于对智能的重新定义,以及对现有智能评估基准的批判性分析。论文强调了智能的泛化能力和适应能力,而不是仅仅关注在特定任务上的表现。此外,论文还提出了设计新的智能评估基准的原则,为未来的AGI研究提供了指导。

关键设计:论文没有涉及具体的参数设置、损失函数或网络结构等技术细节。相反,论文侧重于概念性的讨论和原则性的指导,旨在推动人工智能研究者重新思考智能的本质,并设计更有效的智能评估方法。

📊 实验亮点

论文通过分析OpenAI的o3在ARC-AGI上的表现,指出其高分主要归功于大量计算资源和预定义操作的试验,而非真正的通用智能。这一分析突显了现有基准的局限性,并为设计更有效的智能评估方法提供了重要启示。

🎯 应用场景

该研究成果可应用于指导通用人工智能的研发方向,推动更智能、更具适应性的AI系统发展。通过更全面的智能评估基准,可以更准确地衡量AI系统的智能水平,促进AI技术在各个领域的应用,例如机器人、自动化、决策支持等。

📄 摘要(原文)

OpenAI's o3 achieves a high score of 87.5 % on ARC-AGI, a benchmark proposed to measure intelligence. This raises the question whether systems based on Large Language Models (LLMs), particularly o3, demonstrate intelligence and progress towards artificial general intelligence (AGI). Building on the distinction between skills and intelligence made by François Chollet, the creator of ARC-AGI, a new understanding of intelligence is introduced: an agent is the more intelligent, the more efficiently it can achieve the more diverse goals in the more diverse worlds with the less knowledge. An analysis of the ARC-AGI benchmark shows that its tasks represent a very specific type of problem that can be solved by massive trialling of combinations of predefined operations. This method is also applied by o3, achieving its high score through the extensive use of computing power. However, for most problems in the physical world and in the human domain, solutions cannot be tested in advance and predefined operations are not available. Consequently, massive trialling of predefined operations, as o3 does, cannot be a basis for AGI - instead, new approaches are required that can reliably solve a wide variety of problems without existing skills. To support this development, a new benchmark for intelligence is outlined that covers a much higher diversity of unknown tasks to be solved, thus enabling a comprehensive assessment of intelligence and of progress towards AGI.