Executable World Models for ARC-AGI-3 in the Era of Coding Agents
作者: Sergey Rodionov
分类: cs.AI
发布日期: 2026-05-06
备注: 8 pages. Submitted to AGI-26
💡 一句话要点
提出基于可执行世界模型的ARC-AGI-3编码智能体系统
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 可执行世界模型 抽象推理 编码智能体 ARC-AGI-3 通用人工智能
📋 核心要点
- ARC-AGI-3挑战需要智能体具备通用问题解决能力,现有方法难以兼顾泛化性和效率。
- 该论文提出一种基于可执行Python世界模型的智能体,通过验证和重构实现简洁性偏好。
- 实验表明,该智能体在25个公开ARC-AGI-3游戏中取得一定成功,可作为通用基线。
📝 摘要(中文)
本文评估了一个用于ARC-AGI-3的初始编码智能体系统。该智能体维护一个可执行的Python世界模型,根据先前的观察验证该模型,并为了实现类似MDL的简洁性偏好,将模型重构为更简单的抽象。智能体在行动前通过该模型进行规划。该系统采用直接的方式:使用脚本控制器、预定义的世界模型接口、验证器程序和计划执行器,但没有手工编写的特定于游戏的逻辑。我们在25个公开的ARC-AGI-3游戏上报告了结果。每次记录的运行都使用一个全新的智能体实例,无法访问之前的运行特定文件或对话状态。大多数游戏只有一个记录的运行;对于少数游戏,我们报告了多个独立的全新智能体运行,以揭示运行间的可变性。该智能体完全解决了7个游戏,在6个游戏中实现了大于75%的相对人类行动效率,并获得了32.58%的平均每游戏RHAE。由于该系统不使用特定于游戏的代码,因此它可以作为ARC-AGI-3的通用基线。私有验证集上的性能仍有待测试。总的来说,结果提供了初步证据,表明验证器驱动的可执行世界模型是ARC-AGI-3智能体的一种有希望的方法。
🔬 方法详解
问题定义:ARC-AGI-3旨在评估通用人工智能的推理和抽象能力,要求智能体在未知环境中解决抽象推理问题。现有方法通常依赖于手工设计的游戏特定逻辑,泛化能力差,或者计算复杂度高,难以在复杂环境中有效推理。
核心思路:该论文的核心思路是构建一个可执行的世界模型,智能体通过在该模型中进行规划和验证来解决问题。通过可执行的模型,智能体可以模拟行动的后果,从而进行更有效的推理。同时,通过验证器来确保模型与实际观察一致,并通过重构来简化模型,从而提高泛化能力。
技术框架:该系统包含以下主要模块:1) 可执行Python世界模型:用于模拟环境和行动的后果。2) 脚本控制器:用于控制智能体的行动。3) 预定义的世界模型接口:用于与环境进行交互。4) 验证器程序:用于验证世界模型与实际观察的一致性。5) 计划执行器:用于执行智能体的计划。智能体首先根据观察构建世界模型,然后使用验证器验证模型的正确性,接着通过在模型中进行规划来找到解决方案,最后执行计划并更新世界模型。
关键创新:该论文最重要的技术创新在于使用可执行的世界模型进行推理和规划。与传统的基于规则或搜索的方法相比,可执行的模型可以更灵活地模拟环境的动态变化,从而更好地适应未知环境。此外,使用验证器和重构机制来提高模型的准确性和简洁性,也是一个重要的创新。
关键设计:该系统使用Python作为世界模型的编程语言,因为它具有良好的可执行性和表达能力。验证器程序使用预定义的规则来检查世界模型与观察的一致性。重构过程旨在通过删除冗余代码和简化抽象来减少模型的复杂性。智能体的计划使用A*搜索算法在世界模型中进行搜索。
📊 实验亮点
该智能体在25个公开的ARC-AGI-3游戏中进行了测试,完全解决了7个游戏,在6个游戏中实现了大于75%的相对人类行动效率(RHAE),并获得了32.58%的平均每游戏RHAE。这些结果表明,基于可执行世界模型的智能体在解决抽象推理问题方面具有潜力,并可作为ARC-AGI-3的通用基线。
🎯 应用场景
该研究成果可应用于通用人工智能、机器人控制、游戏AI等领域。通过构建可执行的世界模型,智能体可以在复杂和未知的环境中进行推理和规划,从而实现更智能化的行为。该方法在自动化任务规划、智能决策支持等方面具有潜在应用价值。
📄 摘要(原文)
We evaluate an initial coding-agent system for ARC-AGI-3 in which the agent maintains an executable Python world model, verifies it against previous observations, refactors it toward simpler abstractions as a practical proxy for an MDL-like simplicity bias, and plans through the model before acting. The system is intentionally direct: it uses a scripted controller, predefined world-model interfaces, verifier programs, and a plan executor, but no hand-coded game-specific logic. We report results on the 25 public ARC-AGI-3 games. Each recorded playthrough uses a fresh agent instance with no access to previous playthrough-specific files or conversation state. Most games have a single recorded playthrough; for a few games, we report multiple independent fresh-agent playthroughs to expose run-to-run variability. The agent fully solved 7 games, achieved a Relative Human Action Efficiency greater than 75%, on 6 games, and obtained a mean per-game RHAE of 32.58%. Because the system uses no game-specific code, it can serve as a game-general baseline for ARC-AGI-3. Performance on the private validation set remains to be tested. Overall, the results provide preliminary evidence that verifier-driven executable world models are a promising approach for ARC-AGI-3 agents.