WorldCraft: Photo-Realistic 3D World Creation and Customization via LLM Agents

📄 arXiv: 2502.15601v2 📥 PDF

作者: Xinhang Liu, Chi-Keung Tang, Yu-Wing Tai

分类: cs.CV, cs.AI, cs.GR

发布日期: 2025-02-21 (更新: 2025-02-28)


💡 一句话要点

WorldCraft:利用LLM Agent实现照片级真实3D世界创建与定制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D世界生成 大型语言模型 自然语言交互 程序化生成 虚拟现实 智能Agent 场景定制

📋 核心要点

  1. 传统3D建模软件操作复杂,需要专业人员耗费大量精力,阻碍了虚拟世界创建的普及。
  2. WorldCraft利用LLM Agent和程序化生成,用户通过自然语言命令即可控制场景创建和物体属性。
  3. 实验证明WorldCraft能够处理从单物体定制到复杂场景设计,降低了3D世界创建的门槛。

📝 摘要(中文)

本文提出WorldCraft系统,旨在通过大型语言模型(LLM)Agent和程序化生成技术,降低创建照片级真实虚拟世界的门槛。该系统允许用户通过直观的自然语言命令控制室内和室外场景的创建,包括物体属性和场景布局。WorldCraft框架包含一个协调Agent,以及两个专业LLM Agent:ForgeIt,通过自动验证集成不断增长的手册,实现对单个物体的精确定制;ArrangeIt,构建分层优化问题,以实现兼顾人体工程学和美学的布局。此外,该流程还包含一个轨迹控制Agent,允许用户通过自然语言交互来动画场景和操作相机。该系统兼容现成的深度3D生成器,以丰富场景资源。实验结果表明,WorldCraft具有广泛的适用性,能够处理从单物体定制到复杂的大规模室内外场景设计,使非专业人士也能实现他们的创意。

🔬 方法详解

问题定义:现有3D建模流程依赖于专业人员使用复杂的建模软件,耗时耗力,普通用户难以参与。因此,论文旨在解决如何降低3D世界创建门槛,让非专业人士也能轻松创建和定制照片级真实的虚拟场景的问题。

核心思路:论文的核心思路是利用大型语言模型(LLM)作为智能Agent,结合程序化生成技术,将用户的自然语言指令转化为具体的3D场景创建和定制操作。通过分解任务,并分配给不同的LLM Agent,实现高效且灵活的场景生成。

技术框架:WorldCraft系统包含以下几个主要模块:1) 协调Agent:负责接收用户指令,协调各个Agent的工作流程。2) ForgeIt Agent:负责单个物体的定制,通过查阅和验证相关手册,精确控制物体属性。3) ArrangeIt Agent:负责场景布局,通过构建分层优化问题,平衡人体工程学和美学因素。4) 轨迹控制Agent:负责场景动画和相机控制,允许用户通过自然语言指令控制相机运动。此外,系统还集成了现成的深度3D生成器,用于丰富场景资源。

关键创新:该论文的关键创新在于将LLM Agent引入3D世界创建流程,并设计了专门的Agent(ForgeIt和ArrangeIt)来处理物体定制和场景布局等任务。通过这种方式,用户可以使用自然语言与系统交互,极大地降低了3D建模的门槛。此外,分层优化布局方法和自动验证的手册集成也是重要的技术创新。

关键设计:ArrangeIt Agent采用分层优化方法,首先确定场景的主要结构,然后逐步填充细节。ForgeIt Agent通过自动验证机制,确保从手册中获取的信息的准确性。轨迹控制Agent的设计允许用户以自然语言指定相机轨迹,从而实现场景动画。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了WorldCraft的有效性和通用性。实验结果表明,WorldCraft能够生成高质量的室内和室外场景,并且能够根据用户的自然语言指令进行精确的定制。与现有方法相比,WorldCraft在场景创建的效率和灵活性方面具有显著优势。具体性能数据未知,但论文强调了其在复杂场景设计方面的能力。

🎯 应用场景

WorldCraft具有广泛的应用前景,包括游戏开发、虚拟现实、建筑设计、室内设计、教育培训等领域。它可以帮助游戏开发者快速创建游戏场景,建筑师设计虚拟建筑模型,教师创建沉浸式教学环境。该研究的潜在价值在于降低了3D内容创作的门槛,促进了虚拟现实技术的普及和应用。

📄 摘要(原文)

Constructing photorealistic virtual worlds has applications across various fields, but it often requires the extensive labor of highly trained professionals to operate conventional 3D modeling software. To democratize this process, we introduce WorldCraft, a system where large language model (LLM) agents leverage procedural generation to create indoor and outdoor scenes populated with objects, allowing users to control individual object attributes and the scene layout using intuitive natural language commands. In our framework, a coordinator agent manages the overall process and works with two specialized LLM agents to complete the scene creation: ForgeIt, which integrates an ever-growing manual through auto-verification to enable precise customization of individual objects, and ArrangeIt, which formulates hierarchical optimization problems to achieve a layout that balances ergonomic and aesthetic considerations. Additionally, our pipeline incorporates a trajectory control agent, allowing users to animate the scene and operate the camera through natural language interactions. Our system is also compatible with off-the-shelf deep 3D generators to enrich scene assets. Through evaluations and comparisons with state-of-the-art methods, we demonstrate the versatility of WorldCraft, ranging from single-object customization to intricate, large-scale interior and exterior scene designs. This system empowers non-professionals to bring their creative visions to life.