World2Minecraft: Occupancy-Driven Simulated Scenes Construction

作者: Lechao Zhang, Haoran Xu, Jingyu Gong, Xuhong Wang, Yuan Xie, Xin Tan

分类: cs.CV

发布日期: 2026-04-30

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

World2Minecraft：提出一种基于Occupancy预测的Minecraft场景自动构建方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 Occupancy预测 Minecraft 场景重建 数据集 视觉-语言导航 模拟环境

📋 核心要点

现有具身智能模拟平台存在数据污染和灵活性不足的问题，限制了感知和决策算法的开发。
World2Minecraft通过3D语义Occupancy预测将真实场景转换为Minecraft环境，提供了一个可定制和编辑的平台。
论文构建了大规模Occupancy数据集MinecraftOcc，实验表明该数据集对现有方法提出了挑战，并能提升Occupancy预测效果。

📝 摘要（中文）

具身智能需要高保真的模拟环境来支持感知和决策，但现有平台通常存在数据污染和灵活性有限的问题。为了缓解这些问题，我们提出了World2Minecraft，它基于3D语义Occupancy预测将真实世界的场景转换为结构化的Minecraft环境。在重建的场景中，我们可以轻松地执行下游任务，例如视觉-语言导航（VLN）。然而，我们观察到重建质量在很大程度上取决于准确的Occupancy预测，而这受到现有模型中数据稀缺和泛化能力差的限制。我们引入了一种低成本、自动化和可扩展的数据采集管道，用于创建定制的Occupancy数据集，并通过MinecraftOcc（一个包含来自156个细节丰富的室内场景的100,165张图像的大规模数据集）证明了其有效性。大量的实验表明，我们的数据集为现有数据集提供了重要的补充，并对当前的SOTA方法提出了重大挑战。这些发现有助于改进Occupancy预测，并突出了World2Minecraft在为个性化具身AI研究提供可定制和可编辑平台方面的价值。

🔬 方法详解

问题定义：现有具身智能模拟环境存在数据污染和灵活性不足的问题，难以支持有效的感知和决策算法训练。准确的Occupancy预测是构建高质量模拟环境的关键，但现有模型受限于数据稀缺和泛化能力差，无法满足需求。

核心思路：论文的核心思路是利用3D语义Occupancy预测技术，将真实世界的场景转换为结构化的Minecraft环境。Minecraft作为一个高度可定制和可编辑的平台，可以克服现有模拟环境的局限性。通过构建大规模的Occupancy数据集，提升模型的预测精度，从而提高重建场景的质量。

技术框架：World2Minecraft的整体框架包含以下几个主要阶段：1) 数据采集：利用低成本、自动化和可扩展的数据采集管道，获取真实世界场景的图像数据。2) Occupancy预测：使用深度学习模型对采集的图像数据进行3D语义Occupancy预测，生成场景的Occupancy表示。3) Minecraft场景构建：根据Occupancy预测结果，将真实场景转换为结构化的Minecraft环境。4) 下游任务应用：在重建的Minecraft场景中，可以进行视觉-语言导航（VLN）等下游任务的训练和评估。

关键创新：论文的关键创新在于：1) 提出了World2Minecraft框架，将真实场景转换为可定制的Minecraft环境，为具身智能研究提供了一个新的平台。2) 构建了大规模的Occupancy数据集MinecraftOcc，该数据集包含丰富的室内场景，可以有效提升Occupancy预测模型的性能。3) 设计了低成本、自动化和可扩展的数据采集管道，降低了数据获取的成本和难度。

关键设计：数据采集管道的设计考虑了自动化和可扩展性，具体实现细节未知。Occupancy预测模型使用了现有的SOTA方法，但具体模型结构和参数设置未知。损失函数的设计可能包括Occupancy预测的交叉熵损失和语义分割的损失，具体细节未知。

🖼️ 关键图片

📊 实验亮点

论文构建了大规模Occupancy数据集MinecraftOcc，包含100,165张图像，来自156个室内场景。实验结果表明，该数据集对现有SOTA Occupancy预测模型提出了挑战，并且使用该数据集训练的模型在Occupancy预测精度上取得了显著提升。具体提升幅度未知，但论文强调了该数据集对现有数据集的补充作用。

🎯 应用场景

该研究成果可应用于机器人导航、虚拟现实、游戏开发等领域。通过将真实场景转换为可定制的Minecraft环境，可以为机器人提供更真实的训练环境，提高其在真实世界中的导航能力。此外，该技术还可以用于创建虚拟现实场景，为用户提供更沉浸式的体验。在游戏开发中，可以利用该技术快速生成游戏场景，提高开发效率。

📄 摘要（原文）

Embodied intelligence requires high-fidelity simulation environments to support perception and decision-making, yet existing platforms often suffer from data contamination and limited flexibility. To mitigate this, we propose World2Minecraft to convert real-world scenes into structured Minecraft environments based on 3D semantic occupancy prediction. In the reconstructed scenes, we can effortlessly perform downstream tasks such as Vision-Language Navigation(VLN). However, we observe that reconstruction quality heavily depends on accurate occupancy prediction, which remains limited by data scarcity and poor generalization in existing models. We introduce a low-cost, automated, and scalable data acquisition pipeline for creating customized occupancy datasets, and demonstrate its effectiveness through MinecraftOcc, a large-scale dataset featuring 100,165 images from 156 richly detailed indoor scenes. Extensive experiments show that our dataset provides a critical complement to existing datasets and poses a significant challenge to current SOTA methods. These findings contribute to improving occupancy prediction and highlight the value of World2Minecraft in providing a customizable and editable platform for personalized embodied AI research. Project page:https://world2minecraft.github.io/.

World2Minecraft: Occupancy-Driven Simulated Scenes Construction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理