AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence

📄 arXiv: 2504.04430v8 📥 PDF

作者: Matej Šprogar

分类: cs.AI

发布日期: 2025-04-06 (更新: 2025-11-18)

备注: 18 pages, 2 figures


💡 一句话要点

AGITB:一个用于评估通用人工智能的信号级基准测试

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 通用人工智能 基准测试 时间序列预测 信号处理 智能评估

📋 核心要点

  1. 现有AI评估框架侧重于特定任务,缺乏对通用智能的全面评估,难以衡量AI的真正智能水平。
  2. AGITB通过一系列基本测试,评估模型在时间序列预测中的通用能力,无需预训练和人为干预。
  3. 实验表明,人类皮层能通过所有测试,而现有AI系统无法完全满足AGITB标准,验证了其有效性。

📝 摘要(中文)

当前的人工智能系统展示了卓越的能力,但仍然是专门化的,部分原因是尚未建立通用智能的统一衡量标准。现有的评估框架主要侧重于语言或感知任务,对通用性的洞察有限。人工通用智能测试平台(AGITB)引入了一个互补的基准测试套件,包含十四个基本测试,其中十三个被实现为完全自动化的程序。AGITB评估模型逐步预测时间序列中下一个输入的能力,无需预训练、符号操作或语义基础。该框架隔离了核心计算不变性,如确定性、敏感性和泛化性,这些不变性与生物信息处理的原则相平行。AGITB旨在抵抗蛮力或基于记忆的策略,强制执行无偏和自主学习。人类皮层满足所有测试,而目前没有人工智能系统满足完整的AGITB标准,这证明了其作为评估人工通用智能进展的严格、可解释和可操作的基准的价值。AGITB的参考实现可在GitHub上免费获得。

🔬 方法详解

问题定义:现有AI系统在特定任务上表现出色,但缺乏通用性,难以应对未知环境和任务。现有的评估框架主要关注语言和感知等特定领域,无法全面评估AI的通用智能水平。因此,需要一个更通用、更严格的基准测试来评估AI的通用智能。

核心思路:AGITB的核心思路是通过一系列基本的时间序列预测任务,评估模型在没有预训练、符号操作或语义基础的情况下,逐步预测下一个输入的能力。这种方法旨在隔离核心计算不变性,如确定性、敏感性和泛化性,这些不变性是通用智能的基础。

技术框架:AGITB包含十四个基本测试,其中十三个被实现为完全自动化的程序。这些测试涵盖了不同的时间序列模式,例如确定性序列、随机序列、周期性序列等。模型需要逐步预测序列中的下一个输入,并根据预测的准确性进行评分。整个框架旨在抵抗蛮力或基于记忆的策略,强制执行无偏和自主学习。

关键创新:AGITB的关键创新在于其信号级的评估方式,它不依赖于预训练、符号操作或语义基础,而是直接评估模型对时间序列信号的处理能力。这种方法更接近生物智能的处理方式,能够更准确地评估AI的通用智能水平。此外,AGITB的设计旨在抵抗各种作弊策略,确保评估的公平性和可靠性。

关键设计:AGITB的关键设计包括:1) 使用多种类型的时间序列,以覆盖不同的模式和复杂性;2) 采用逐步预测的方式,以评估模型的动态学习能力;3) 强制执行无偏和自主学习,以避免模型利用先验知识或人为干预;4) 提供清晰的评分标准,以便于比较不同模型的性能。

🖼️ 关键图片

img_0

📊 实验亮点

AGITB的实验结果表明,人类皮层能够通过所有测试,而目前没有人工智能系统能够完全满足AGITB的标准。这表明现有AI系统在通用智能方面与人类智能存在显著差距。此外,实验还表明,AGITB能够有效区分不同AI系统的性能,并揭示它们在处理不同类型时间序列时的优缺点。

🎯 应用场景

AGITB可用于评估各种AI系统的通用智能水平,指导AI算法的设计和优化,并促进通用人工智能的发展。它还可以用于比较不同AI系统与人类智能的差距,从而更好地理解人类智能的本质。此外,AGITB可以应用于机器人、控制系统等领域,提高系统的适应性和鲁棒性。

📄 摘要(原文)

Current AI systems demonstrate remarkable capabilities yet remain specialised, in part because no unified measure of general intelligence has been established. Existing evaluation frameworks, which focus primarily on language or perception tasks, offer limited insight into generality. The Artificial General Intelligence Testbed (AGITB) introduces a complementary benchmarking suite of fourteen elementary tests, with thirteen implemented as fully automated procedures. AGITB evaluates models on their ability to forecast the next input in a temporal sequence, step by step, without pretraining, symbolic manipulation, or semantic grounding. The framework isolates core computational invariants, such as determinism, sensitivity, and generalisation, that parallel principles of biological information processing. Designed to resist brute-force or memorisation-based strategies, AGITB enforces unbiased and autonomous learning. The human cortex satisfies all tests, whereas no current AI system meets the full AGITB criteria, demonstrating its value as a rigorous, interpretable, and actionable benchmark for evaluating progress toward artificial general intelligence. A reference implementation of AGITB is freely available on GitHub.