BuilderBench -- A benchmark for generalist agents

📄 arXiv: 2510.06288v1 📥 PDF

作者: Raj Ghugare, Catherine Ji, Kathryn Wantlin, Jin Schofield, Benjamin Eysenbach

分类: cs.AI, cs.LG

发布日期: 2025-10-07

备注: Project page: https://rajghugare19.github.io/builderbench and Code: https://github.com/rajghugare19/builderbench


💡 一句话要点

BuilderBench:面向通用智能体,用于开放式探索的基准测试平台

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 开放式探索 基准测试 机器人学习 通用人工智能

📋 核心要点

  1. 现有AI模型依赖模仿和精炼,缺乏解决新问题的能力,需要探索和经验学习。
  2. BuilderBench通过硬件加速模拟器和多样化任务套件,促进智能体开放式探索和具身推理能力。
  3. 实验表明现有算法在BuilderBench上表现不佳,论文提供训练协议和算法实现作为研究起点。

📝 摘要(中文)

现有的AI模型主要通过模仿和精炼学习,因此难以解决超出已有数据范围的问题。为了解决新问题,智能体应该获得探索和通过经验学习的技能。为通过交互学习的智能体寻找可扩展的学习机制仍然是一个主要的开放性问题。本文提出了BuilderBench,一个旨在加速智能体预训练研究的基准测试平台,其核心是开放式探索。BuilderBench包含:(1)一个硬件加速的模拟器,模拟机器人智能体与各种物理块的交互;(2)一个包含42多个不同目标结构的测试套件,这些结构经过精心设计,用于测试对物理、数学和长程规划的理解。在训练期间,智能体必须探索和学习关于环境的通用原则,而无需任何外部监督。在评估期间,智能体必须构建来自测试套件的未见过的目标结构。解决这些任务需要一种“具身推理”,这种推理不是体现在文字中,而是体现在行动中,通过试验不同的策略并将它们组合在一起。实验表明,许多这些任务对当前迭代的算法提出了挑战。因此,本文还提供了一个“训练轮”协议,其中智能体被训练和评估以构建来自任务套件的单个目标结构。最后,本文提供了六种不同算法的单文件实现,作为研究人员的参考。

🔬 方法详解

问题定义:现有AI模型在解决超出训练数据范围的新问题时面临挑战,缺乏自主探索和学习的能力。特别是在具身智能领域,如何让智能体通过与环境的交互学习通用技能,并将其泛化到新的任务中,是一个亟待解决的问题。现有方法往往依赖于大量标注数据或预定义的策略,难以适应开放式的探索环境。

核心思路:BuilderBench的核心思路是提供一个具有挑战性的、可控的、可扩展的具身智能学习环境,鼓励智能体通过开放式探索和自我监督学习来掌握通用技能。通过构建各种目标结构,智能体需要学习物理规律、数学概念和长程规划能力,从而实现具身推理。这种方法强调智能体与环境的交互,以及从交互中学习的能力。

技术框架:BuilderBench包含两个主要组成部分:硬件加速的模拟器和任务套件。模拟器负责模拟机器人智能体与物理块的交互,提供逼真的物理环境。任务套件包含42多个精心设计的、具有挑战性的目标结构,这些结构涵盖了物理、数学和长程规划等多个方面。智能体在训练阶段需要在模拟器中进行开放式探索,学习环境的通用原则,无需外部监督。在评估阶段,智能体需要利用学习到的技能,构建任务套件中的未见过的目标结构。

关键创新:BuilderBench的关键创新在于其开放式探索的学习范式和多样化的任务设计。与传统的监督学习或强化学习方法不同,BuilderBench鼓励智能体自主探索环境,并通过自我监督学习来获取知识。任务套件的设计旨在测试智能体的具身推理能力,包括对物理规律的理解、数学概念的应用和长程规划的能力。此外,硬件加速的模拟器能够提供高效的训练环境,加速智能体的学习过程。

关键设计:BuilderBench的关键设计包括:(1) 硬件加速的物理引擎,提供高效的模拟环境;(2) 多样化的任务套件,涵盖不同难度和类型的目标结构;(3) 开放式探索的学习范式,鼓励智能体自主学习;(4) 提供“训练轮”协议,降低学习难度,方便研究人员快速上手;(5) 提供六种不同算法的单文件实现,作为基线和参考。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有算法在BuilderBench的许多任务上表现不佳,突显了该基准测试平台的挑战性。论文提供的“训练轮”协议可以帮助智能体在单个目标结构上进行训练和评估,为研究人员提供了一个起点。此外,论文还提供了六种不同算法的单文件实现,作为基线和参考,方便研究人员进行比较和改进。

🎯 应用场景

BuilderBench的研究成果可应用于机器人、自动驾驶、游戏AI等领域。通过提升智能体的具身推理和开放式探索能力,可以使机器人在复杂环境中更好地完成任务,例如在未知环境中进行导航、操作和构建。此外,该基准测试平台可以促进通用人工智能的研究,推动智能体在更广泛的任务中实现自主学习和决策。

📄 摘要(原文)

Today's AI models learn primarily through mimicry and sharpening, so it is not surprising that they struggle to solve problems beyond the limits set by existing data. To solve novel problems, agents should acquire skills for exploring and learning through experience. Finding a scalable learning mechanism for developing agents that learn through interaction remains a major open problem. In this work, we introduce BuilderBench, a benchmark to accelerate research into agent pre-training that centers open-ended exploration. BuilderBench requires agents to learn how to build any structure using blocks. BuilderBench is equipped with $(1)$ a hardware accelerated simulator of a robotic agent interacting with various physical blocks, and $(2)$ a task-suite with over 42 diverse target structures that are carefully curated to test an understanding of physics, mathematics, and long-horizon planning. During training, agents have to explore and learn general principles about the environment without any external supervision. During evaluation, agents have to build the unseen target structures from the task suite. Solving these tasks requires a sort of \emph{embodied reasoning} that is not reflected in words but rather in actions, experimenting with different strategies and piecing them together. Our experiments show that many of these tasks challenge the current iteration of algorithms. Hence, we also provide a ``training wheels'' protocol, in which agents are trained and evaluated to build a single target structure from the task suite. Finally, we provide single-file implementations of six different algorithms as a reference point for researchers.