OpenHA: A Series of Open-Source Hierarchical Agentic Models in Minecraft
作者: Zihao Wang, Muyao Li, Kaichen He, Xiangyu Wang, Zhancun Mu, Anji Liu, Yitao Liang
分类: cs.AI
发布日期: 2025-09-13
🔗 代码/项目: GITHUB
💡 一句话要点
提出Chain of Action框架,解决Minecraft中通用智能体动作空间选择难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Minecraft 分层智能体 动作空间抽象 视觉-语言-动作模型 Chain of Action 通用人工智能 强化学习
📋 核心要点
- 现有端到端智能体面临动作空间选择难题,缺乏通用最优解,不同任务需要不同的动作抽象。
- 提出Chain of Action (CoA)框架,将抽象动作视为中间推理步骤,统一高层规划和低层控制。
- All-in-One智能体在CoA框架下,通过混合动作空间训练,实现更强的鲁棒性和泛化能力,达到新的SOTA。
📝 摘要(中文)
本文针对开发具有能力的端到端可训练智能体时,动作空间选择这一关键但未解决的挑战,在开放的Minecraft环境中,对视觉-语言-动作(VLA)或分层智能体模型中突出的抽象动作空间和分词器进行了大规模、系统的比较。分析表明,没有单一的动作空间是普遍最优的;相反,最有效的抽象高度依赖于任务,这给构建通用智能体带来了困境。为了解决这个问题,我们引入了Chain of Action (CoA),这是一个新颖的框架,它在单个整体VLA模型中统一了高层规划和低层控制。CoA将抽象动作视为中间推理步骤,类似于思维链,指导最终可执行动作的生成,而不是将其视为单独策略的命令。此外,我们证明了使用CoA范式在各种动作空间混合上训练的All-in-One智能体学习到更鲁棒和可泛化的策略。这个统一的智能体实现了新的最先进水平,提高了整体任务成功率,超过了强大的专业基线。为了促进可重复的研究,我们发布了OpenHA(开放分层智能体)套件,其中包括我们全面的基准测试,包含超过800个不同的任务、精选的数据集、源代码以及所有预训练模型检查点。
🔬 方法详解
问题定义:论文旨在解决在Minecraft环境中,如何为通用智能体选择合适的动作空间的问题。现有方法通常针对特定任务设计动作空间,缺乏通用性,导致智能体难以适应多样化的任务需求。此外,直接使用低层次的动作空间会导致探索空间过大,训练困难。
核心思路:论文的核心思路是将高层规划和低层控制统一到一个模型中,通过Chain of Action (CoA)框架,将抽象的动作视为中间推理步骤,指导最终可执行动作的生成。这样,智能体可以根据任务需求,灵活地选择合适的动作抽象级别,从而提高泛化能力。
技术框架:CoA框架包含一个整体的视觉-语言-动作(VLA)模型。该模型接收视觉输入(如Minecraft游戏画面)和语言指令(如任务描述),然后生成一系列抽象动作(Chain of Action),最后将这些抽象动作转化为可执行的低层动作。整个过程在一个模型中完成,避免了传统分层方法的模块间信息传递瓶颈。
关键创新:CoA框架的关键创新在于将抽象动作视为推理步骤,而不是独立的策略命令。这使得智能体能够更好地理解任务目标,并根据当前状态选择合适的动作抽象级别。此外,通过在混合动作空间上训练,智能体可以学习到更鲁棒和可泛化的策略。
关键设计:论文使用Transformer架构作为VLA模型的基础。在训练过程中,使用交叉熵损失函数来优化抽象动作和低层动作的生成。为了提高训练效率,采用了课程学习策略,先训练简单任务,再逐步增加任务难度。此外,还设计了一系列数据增强方法,以提高模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用CoA框架训练的All-in-One智能体在Minecraft的800多个任务上取得了新的SOTA,显著提高了整体任务成功率,超过了专门针对特定任务设计的基线模型。这验证了CoA框架的有效性和通用性。
🎯 应用场景
该研究成果可应用于游戏AI、机器人控制等领域。通过学习不同层次的动作抽象,智能体可以更好地理解任务目标,并根据环境变化做出灵活的决策。这有助于开发更智能、更通用的AI系统,例如可以自主完成复杂任务的机器人助手。
📄 摘要(原文)
The choice of action spaces is a critical yet unresolved challenge in developing capable, end-to-end trainable agents. This paper first presents a large-scale, systematic comparison of prominent abstracted action spaces and tokenizers for Vision-Language-Action (VLA) or hierarchical agent models in the open-ended Minecraft. Our analysis reveals that no single action space is universally optimal; instead, the most effective abstraction is highly task-dependent, creating a dilemma for building generalist agents. To resolve this, we introduce Chain of Action (CoA), a novel framework that unifies high-level planning and low-level control within a single, monolithic VLA model. CoA treats an abstracted action not as a command for a separate policy, but as an intermediate reasoning step--akin to a chain of thought--that guides the generation of the final, executable action. Furthermore, we demonstrate that an All-in-One agent trained on a diverse mixture of action spaces using the CoA paradigm learns a more robust and generalizable policy. This unified agent achieves a new state-of-the-art, improving the overall task success rate over strong, specialized baselines. To foster reproducible research, we release the OpenHA (Open Hierarchical Agents) suite, which includes our comprehensive benchmark of over 800 distinct tasks, curated datasets, source code, and all pretrained model checkpoints at https://github.com/CraftJarvis/OpenHA