WorldAct: Activating Monolithic 3D Worlds into Interactive-Ready Object-Centric Scenes

📄 arXiv: 2605.15843v1 📥 PDF

作者: Jichen Hu, Jiawei Guo, Jiazhong Cen, Chen Yang, Sikuang Li, Wei Shen

分类: cs.CV

发布日期: 2026-05-15

备注: Project page: https://sjtu-deepvisionlab.github.io/WorldAct


💡 一句话要点

WorldAct:将静态3D世界转化为可交互的、以对象为中心的场景

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D场景理解 可交互场景生成 多模态代理 对象级重建 具身智能

📋 核心要点

  1. 现有的3D世界建模系统生成的场景是静态的,缺乏可编辑性和交互性,限制了其在沉浸式内容创作和具身模拟中的应用。
  2. WorldAct框架通过多模态代理引导场景分解,识别可操作对象,并重建对象级网格,从而将静态3D世界转化为可交互的场景。
  3. 实验结果表明,WorldAct能够实现比原始生成场景更丰富的交互,为可编辑和交互式3D世界建模提供了一条可行的路径。

📝 摘要(中文)

基于生成式场景合成的3D世界建模系统,如Marble,能够创建连贯且可探索的3D环境,但其输出通常是静态的整体资源,可编辑性和物理交互性有限。这限制了它们在沉浸式内容创作和具身模拟中的应用,在这些应用中,生成的世界必须能够被主动修改和操作。为了解决这一挑战,我们提出了WorldAct,一个将静态生成的3D世界转换为可编辑和交互式场景的框架。WorldAct使用多模态代理来指导场景分解,识别可操作对象,重建几何对齐的对象级网格以进行交互,并通过3D修复来恢复剩余背景。生成的场景支持对象级编辑、碰撞感知操作和具身任务执行,同时保持全局场景的连贯性。实验表明,WorldAct能够实现比原始生成场景更丰富的交互场景,这表明了一条通往可编辑和交互式3D世界模型的实用路径。

🔬 方法详解

问题定义:现有基于生成式场景合成的3D世界建模方法,例如Marble,生成的3D场景是静态的,缺乏对象级别的编辑和交互能力。这使得这些场景难以应用于需要动态修改和操作的沉浸式内容创作和具身模拟等领域。现有方法的痛点在于无法将整体的3D场景分解为可独立操作的对象,并且缺乏对对象之间物理交互的建模。

核心思路:WorldAct的核心思路是利用多模态代理来指导场景的分解,识别场景中可交互的对象,并为这些对象重建几何对齐的网格模型。通过将场景分解为对象级别的表示,并恢复剩余的背景,WorldAct使得用户可以对场景中的对象进行编辑、操作,并进行碰撞感知的交互。

技术框架:WorldAct框架主要包含以下几个阶段:1) 多模态代理引导的场景分解:利用多模态代理分析场景,将场景分解为不同的对象;2) 可操作对象识别:识别场景中可以进行交互的对象;3) 对象级网格重建:为识别出的可操作对象重建几何对齐的网格模型,以便进行交互;4) 背景修复:利用3D修复技术恢复场景中剩余的背景,保持场景的完整性。

关键创新:WorldAct的关键创新在于利用多模态代理来指导场景的分解和对象识别。与传统的基于几何或语义分割的方法不同,WorldAct的多模态代理可以综合利用视觉、语言等多种信息,更准确地识别场景中的对象,并判断其是否可交互。此外,WorldAct还提出了一种几何对齐的网格重建方法,保证了重建的对象网格与原始场景的几何一致性。

关键设计:WorldAct使用预训练的多模态模型作为代理,该代理可以接收场景的图像和文本描述作为输入,并输出场景中对象的分割掩码和语义标签。在对象级网格重建阶段,WorldAct使用了一种基于隐式曲面重建的方法,该方法可以生成高质量的网格模型,并保证与原始场景的几何对齐。背景修复阶段,WorldAct采用了一种基于扩散模型的3D修复方法,可以生成逼真的背景纹理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,WorldAct能够有效地将静态3D世界转化为可交互的场景。与原始生成的场景相比,WorldAct生成的场景支持对象级别的编辑和操作,并且能够实现碰撞感知的交互。实验还表明,WorldAct能够提高具身任务的执行成功率,例如,在导航任务中,使用WorldAct生成的场景进行训练的机器人能够更快地到达目标位置。

🎯 应用场景

WorldAct具有广泛的应用前景,包括沉浸式内容创作、虚拟现实/增强现实、机器人仿真、游戏开发等领域。它可以帮助用户快速创建可交互的3D场景,并支持各种具身任务的执行。例如,在虚拟现实游戏中,玩家可以与WorldAct生成的场景中的对象进行交互,从而获得更真实的沉浸式体验。在机器人仿真中,WorldAct可以用于生成逼真的训练环境,帮助机器人学习各种操作技能。

📄 摘要(原文)

Recent 3D world modeling systems based on generative scene synthesis, such as Marble, can create coherent and explorable 3D environments, yet their outputs are typically static monolithic assets with limited editability and physical interaction. This restricts their use in immersive content creation and embodied simulation, where generated worlds must be actively modified and manipulated. To tackle this challenge, we present WorldAct, a framework that converts static generated 3D worlds into editable and interaction-ready scenes. WorldAct uses a multimodal agent to guide scene decomposition, identify actionable objects, reconstruct geometrically aligned object-level meshes for interaction, and restore the residual background via 3D inpainting. The resulting scenes support object-level editing, collision-aware manipulation, and embodied task execution while preserving global scene coherence. Experiments show that WorldAct enables richer interaction scenarios than the original generated scenes, suggesting a practical path toward editable and interactive 3D world models.