3D-Generalist: Self-Improving Vision-Language-Action Models for Crafting 3D Worlds

作者: Fan-Yun Sun, Shengguang Wu, Christian Jacobsen, Thomas Yim, Haoming Zou, Alex Zook, Shangru Li, Yu-Hsin Chou, Ethem Can, Xunlei Wu, Clemens Eppner, Valts Blukis, Jonathan Tremblay, Jiajun Wu, Stan Birchfield, Nick Haber

分类: cs.GR, cs.CV

发布日期: 2025-07-09 (更新: 2025-08-19)

备注: project website: https://ai.stanford.edu/~sunfanyun/3d-generalist/

💡 一句话要点

3D-Generalist：用于构建3D世界的自提升视觉-语言-动作模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D环境生成 视觉-语言模型 序列决策 自提升微调 强化学习 视觉基础模型 合成数据 3D场景理解

📋 核心要点

现有方法缺乏在3D世界中进行数据标注，导致模型空间推理能力不足，难以满足VR、游戏和机器人等应用需求。
3D-Generalist将3D环境构建视为序列决策问题，利用视觉-语言模型作为策略，通过动作生成3D环境的各个方面。
实验证明，该方法生成的3D环境质量高，可用于预训练视觉基础模型，并在下游任务中取得优异性能。

📝 摘要（中文）

本文提出了一种可扩展的方法，用于生成高质量的3D环境，作为基础模型的训练数据。我们将3D环境构建重新定义为一个序列决策问题，采用视觉-语言模型（VLM）作为策略，输出动作以共同构建3D环境的布局、材质、光照和资产。我们提出的框架3D-Generalist，通过自提升微调训练VLM生成更符合提示的3D环境。实验表明，3D-Generalist和所提出的训练策略在生成可用于仿真的3D环境方面是有效的。此外，通过在生成的数据上预训练视觉基础模型，证明了其在合成数据生成方面的质量和可扩展性。在下游任务上微调预训练模型后，其性能超过了在精心制作的人工合成数据上预训练的模型，并接近使用更大规模真实数据所获得的结果。

🔬 方法详解

问题定义：现有方法在3D环境构建方面面临数据稀缺问题，特别是缺乏高质量、可交互的3D环境数据。人工构建3D环境耗时耗力，难以满足大规模训练的需求。因此，如何高效、自动地生成高质量的3D环境成为一个关键问题。现有方法难以生成符合特定提示（prompt）的3D环境，缺乏灵活性和可控性。

核心思路：论文的核心思路是将3D环境构建过程建模为一个序列决策问题，并利用视觉-语言模型（VLM）作为智能体，通过执行一系列动作来逐步构建3D环境。通过自提升微调，VLM能够生成更符合用户提示的3D环境。这种方法的核心在于利用VLM的强大语言理解和视觉推理能力，以及强化学习的思想，实现3D环境的自动生成。

技术框架：3D-Generalist框架主要包含以下几个模块：1) 提示编码器：将用户输入的文本提示编码成向量表示。2) VLM策略网络：根据当前环境状态和提示向量，输出下一步要执行的动作。动作包括改变布局、添加材质、调整光照和添加资产等。3) 3D环境渲染器：根据当前环境状态，渲染出视觉图像。4) 奖励函数：评估当前环境与用户提示的匹配程度，并给出奖励信号。5) 自提升微调：利用奖励信号，通过强化学习算法（如PPO）微调VLM策略网络，使其能够生成更符合提示的3D环境。

关键创新：该论文的关键创新在于：1) 将3D环境构建问题建模为序列决策问题，并利用VLM作为策略网络。2) 提出了自提升微调方法，通过强化学习不断优化VLM策略，使其能够生成更符合提示的3D环境。3) 利用生成的3D环境数据预训练视觉基础模型，并在下游任务中取得了显著的性能提升。与现有方法相比，该方法能够更高效、更灵活地生成高质量的3D环境。

关键设计：在VLM策略网络的设计上，采用了Transformer架构，并结合了视觉和语言信息。奖励函数的设计至关重要，需要综合考虑环境的布局、材质、光照和资产等因素，以及与用户提示的匹配程度。自提升微调过程中，采用了Proximal Policy Optimization (PPO)算法，以保证训练的稳定性和收敛性。具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，3D-Generalist生成的3D环境质量高，可用于预训练视觉基础模型。在下游任务上微调后，该模型性能超过了在人工合成数据上预训练的模型，并接近使用更大规模真实数据所获得的结果。具体性能数据未知，但结果表明该方法在合成数据生成方面具有显著优势。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、游戏开发、机器人仿真等领域。通过自动生成高质量的3D环境，可以降低内容创作成本，加速应用开发进程。此外，该方法生成的3D环境数据可用于训练各种人工智能模型，提升其在3D场景下的感知和决策能力。未来，该技术有望应用于自动驾驶、智能家居等领域，实现更智能、更自然的交互体验。

📄 摘要（原文）

Despite large-scale pretraining endowing models with language and vision reasoning capabilities, improving their spatial reasoning capability remains challenging due to the lack of data grounded in the 3D world. While it is possible for humans to manually create immersive and interactive worlds through 3D graphics, as seen in applications such as VR, gaming, and robotics, this process remains highly labor-intensive. In this paper, we propose a scalable method for generating high-quality 3D environments that can serve as training data for foundation models. We recast 3D environment building as a sequential decision-making problem, employing Vision-Language-Models (VLMs) as policies that output actions to jointly craft a 3D environment's layout, materials, lighting, and assets. Our proposed framework, 3D-Generalist, trains VLMs to generate more prompt-aligned 3D environments via self-improvement fine-tuning. We demonstrate the effectiveness of 3D-Generalist and the proposed training strategy in generating simulation-ready 3D environments. Furthermore, we demonstrate its quality and scalability in synthetic data generation by pretraining a vision foundation model on the generated data. After fine-tuning the pre-trained model on downstream tasks, we show that it surpasses models pre-trained on meticulously human-crafted synthetic data and approaches results achieved with real data orders of magnitude larger.

3D-Generalist: Self-Improving Vision-Language-Action Models for Crafting 3D Worlds

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理