Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy

📄 arXiv: 2502.19902v2 📥 PDF

作者: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie

分类: cs.AI

发布日期: 2025-02-27 (更新: 2025-03-11)

备注: Accept to CVPR 2025, Project page: https://cybertronagent.github.io/Optimus-2.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Optimus-2:提出基于目标-观察-动作条件策略的多模态Minecraft智能体

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Minecraft智能体 多模态学习 大型语言模型 行为策略 目标条件策略 开放世界 强化学习

📋 核心要点

  1. 现有智能体难以有效学习跨任务的行为模式,关键在于建模观察、动作和语言之间复杂的相互关系。
  2. Optimus-2通过结合MLLM进行高层规划和GOAP进行低层控制,有效建模了观察、动作和语言之间的关系。
  3. 实验表明,Optimus-2在原子任务、长时程任务和开放式指令任务中均表现出优异的性能。

📝 摘要(中文)

本文提出Optimus-2,一种新型Minecraft智能体,旨在模仿人类行为模式以完成各种开放世界任务。该智能体结合了用于高层规划的多模态大型语言模型(MLLM)和用于低层控制的目标-观察-动作条件策略(GOAP)。GOAP包含一个动作引导的行为编码器,用于建模每个时间步的观察和动作之间的因果关系,并动态地与历史观察-动作序列交互,将其整合为固定长度的行为tokens;以及一个MLLM,用于将行为tokens与开放式语言指令对齐,以自回归地预测动作。此外,本文还引入了一个高质量的Minecraft目标-观察-动作(MGOA)数据集,包含8个原子任务的25,000个视频,提供约3000万个目标-观察-动作对。实验结果表明,Optimus-2在Minecraft的原子任务、长时程任务和开放式指令任务中表现出卓越的性能。

🔬 方法详解

问题定义:现有Minecraft智能体难以有效学习跨任务的行为模式,尤其是在建模观察、动作和语言之间复杂关系方面存在挑战。现有方法通常难以捕捉动作与观察之间的因果关系,以及如何将历史行为信息有效地融入到当前决策中。

核心思路:Optimus-2的核心思路是利用多模态大型语言模型(MLLM)进行高层规划,并结合目标-观察-动作条件策略(GOAP)进行低层控制。通过GOAP,智能体能够更好地理解动作与观察之间的因果关系,并利用历史行为信息进行决策。MLLM则负责将行为tokens与开放式语言指令对齐,从而实现对复杂任务的理解和执行。

技术框架:Optimus-2的整体框架包含两个主要模块:动作引导的行为编码器和多模态大型语言模型(MLLM)。动作引导的行为编码器负责建模每个时间步的观察和动作之间的因果关系,并将历史观察-动作序列整合为固定长度的行为tokens。MLLM则负责将行为tokens与开放式语言指令对齐,并自回归地预测动作。整个流程是,首先接收目标和观察,通过行为编码器提取行为特征,然后MLLM结合语言指令,预测下一步动作。

关键创新:Optimus-2的关键创新在于提出了目标-观察-动作条件策略(GOAP),该策略能够有效地建模动作与观察之间的因果关系,并动态地与历史观察-动作序列交互,从而更好地利用历史行为信息进行决策。此外,高质量的Minecraft目标-观察-动作(MGOA)数据集也为智能体的训练提供了有力支持。

关键设计:动作引导的行为编码器使用Transformer结构,通过注意力机制建模观察和动作之间的关系。历史观察-动作序列通过循环神经网络(RNN)进行编码,并与当前观察-动作对进行交互。MLLM采用预训练的视觉语言模型,并针对Minecraft环境进行微调。损失函数包括动作预测损失和行为编码损失,用于优化智能体的行为策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Optimus-2在Minecraft的原子任务、长时程任务和开放式指令任务中均表现出卓越的性能。与现有基线方法相比,Optimus-2在任务完成率和效率方面均有显著提升。例如,在长时程任务中,Optimus-2的任务完成率提高了15%,并且能够更好地遵循开放式语言指令。

🎯 应用场景

Optimus-2的研究成果可应用于开发更智能、更自主的机器人和游戏智能体。该技术可以扩展到其他开放世界环境,例如自动驾驶、虚拟助手和工业自动化。通过学习人类行为模式,智能体能够更好地理解和执行复杂任务,从而提高效率和降低成本。未来,该研究有望推动人工智能在各个领域的应用。

📄 摘要(原文)

Building an agent that can mimic human behavior patterns to accomplish various open-world tasks is a long-term goal. To enable agents to effectively learn behavioral patterns across diverse tasks, a key challenge lies in modeling the intricate relationships among observations, actions, and language. To this end, we propose Optimus-2, a novel Minecraft agent that incorporates a Multimodal Large Language Model (MLLM) for high-level planning, alongside a Goal-Observation-Action Conditioned Policy (GOAP) for low-level control. GOAP contains (1) an Action-guided Behavior Encoder that models causal relationships between observations and actions at each timestep, then dynamically interacts with the historical observation-action sequence, consolidating it into fixed-length behavior tokens, and (2) an MLLM that aligns behavior tokens with open-ended language instructions to predict actions auto-regressively. Moreover, we introduce a high-quality Minecraft Goal-Observation-Action (MGOA)} dataset, which contains 25,000 videos across 8 atomic tasks, providing about 30M goal-observation-action pairs. The automated construction method, along with the MGOA dataset, can contribute to the community's efforts to train Minecraft agents. Extensive experimental results demonstrate that Optimus-2 exhibits superior performance across atomic tasks, long-horizon tasks, and open-ended instruction tasks in Minecraft. Please see the project page at https://cybertronagent.github.io/Optimus-2.github.io/.