MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft

📄 arXiv: 2605.30931v1 📥 PDF

作者: Tianjie Ju, Yueqing Sun, Zheng Wu, Wei Zhang, Yaqi Huo, Xi Su, Qi Gu, Xunliang Cai, Gongshen Liu, Zhuosheng Zhang

分类: cs.CL

发布日期: 2026-05-29

备注: Working in progress

🔗 代码/项目: GITHUB


💡 一句话要点

MineExplorer:评估MLLM智能体在Minecraft开放世界中的探索能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放世界探索 多模态大型语言模型 Minecraft 具身智能 基准测试 多跳推理 智能体合成

📋 核心要点

  1. 现有具身智能和游戏环境benchmark通常将交互压缩为短视任务,难以评估智能体在开放世界中长期探索的能力。
  2. MineExplorer基准通过过滤领域特定知识,并构建多跳任务,更真实地反映了开放世界推理的挑战。
  3. 实验表明,即使是强大的MLLM智能体在面对需要长程依赖的任务时,性能也会显著下降,表明开放世界探索仍然具有挑战性。

📝 摘要(中文)

多模态大型语言模型(MLLMs)在感知、推理和动作生成方面表现出强大的能力。然而,它们在动态开放世界中持续探索的能力仍不清楚。现有的具身和基于游戏的基准通常将交互压缩为短视任务,或将成功与特定领域的游戏机制纠缠在一起。在本文中,我们引入了MineExplorer基准,用于评估MLLM智能体在Minecraft中开放世界探索能力。我们首先过滤掉那些解决方案严重依赖Minecraft特定知识的原子任务,以更好地反映一般的开放世界推理。然后,我们围绕ReAct风格的能力公式组织基准,并将原子任务组合成隐式的多跳任务。为了进一步构建可靠的实例,MineExplorer使用多智能体合成工作流程,共同设计任务图、沙盒场景和基于规则的里程碑评估器。人工评估表明,多智能体合成工作流程比单智能体基线产生明显更可靠的实例。使用高级MLLM智能体的实验表明,开放世界探索仍然具有挑战性,因为强大的模型可以处理许多单跳任务,但当隐藏的先决条件必须在较长的轨迹上协调时,性能会急剧下降。进一步的分析发现,任务难度跟踪智能体的完成情况,并且更大的模型或思维模式并不能始终转化为更好的性能。代码和数据集可在https://github.com/Jometeorie/MineExplorer获得。

🔬 方法详解

问题定义:现有方法难以有效评估MLLM智能体在开放世界中的长期探索能力,因为它们要么依赖于短视任务,要么与特定游戏机制过度耦合。这使得评估结果难以泛化到更广泛的开放世界场景。

核心思路:MineExplorer的核心思路是构建一个更具挑战性和泛化性的基准,通过过滤领域特定知识,并将原子任务组合成需要长程推理和规划的多跳任务,从而更真实地评估MLLM智能体在开放世界中的探索能力。

技术框架:MineExplorer基准的构建包含以下几个主要模块:1) 原子任务过滤,去除依赖Minecraft特定知识的任务;2) 基于ReAct风格的能力公式的任务组织,将原子任务组合成隐式的多跳任务;3) 多智能体合成工作流程,用于生成可靠的任务实例,包括任务图、沙盒场景和里程碑评估器。

关键创新:MineExplorer的关键创新在于其多智能体合成工作流程,该流程能够自动生成更可靠和更具挑战性的任务实例。与传统的单智能体生成方法相比,多智能体方法可以更好地模拟开放世界中复杂的交互和依赖关系。

关键设计:多智能体合成工作流程涉及多个智能体协同设计任务图、沙盒场景和里程碑评估器。任务图定义了任务之间的依赖关系,沙盒场景提供了任务执行的环境,里程碑评估器用于评估智能体的完成情况。具体参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是强大的MLLM智能体在面对需要长程依赖的多跳任务时,性能也会显著下降。例如,模型在单跳任务上表现良好,但在需要协调多个步骤的任务上表现不佳。此外,实验还发现,更大的模型或更复杂的思维模式并不总是能带来更好的性能,这表明开放世界探索仍然是一个具有挑战性的问题。

🎯 应用场景

MineExplorer基准的潜在应用领域包括机器人导航、游戏AI、以及其他需要智能体在复杂、动态环境中进行长期探索和规划的任务。该基准可以帮助研究人员更好地理解和评估MLLM智能体的开放世界探索能力,并推动相关算法的发展,最终提升智能体在真实世界中的应用效果。

📄 摘要(原文)

Multimodal large language models (MLLMs) have shown strong capabilities in perception, reasoning, and action generation. However, their ability to sustain exploration in dynamic open worlds remains unclear. Existing embodied and game-based benchmarks often compress interaction into short-horizon tasks or entangle success with domain-specific game mechanics. In this paper, we introduce MineExplorer benchmark for evaluating open-world exploration capabilities of MLLM agents in Minecraft. We first filter atomic tasks whose solutions rely heavily on Minecraft-specific knowledge to better reflect general open-world reasoning. Then we organize the benchmark around a ReAct-style capability formulation and compose atomic tasks into implicit multi-hop tasks. To further construct reliable instances, MineExplorer uses a multi-agent synthesis workflow that jointly designs task graphs, sandbox scenes, and rule-based milestone evaluators. Human evaluation shows that the multi-agent synthesis workflow produces significantly more reliable instances than a single-agent baseline. Experiments with advanced MLLM agents show that open-world exploration remains challenging, as strong models can handle many single-hop tasks but degrade sharply when hidden prerequisites must be coordinated over longer trajectories. Further analysis finds that task difficulty tracks agent completion, and larger models or thinking modes do not consistently translate into better performance. Code and dataset are available at https://github.com/Jometeorie/MineExplorer.