DRAWER: Digital Reconstruction and Articulation With Environment Realism

📄 arXiv: 2504.15278v2 📥 PDF

作者: Hongchi Xia, Entong Su, Marius Memmel, Arhan Jain, Raymond Yu, Numfor Mbiziwo-Tiapo, Ali Farhadi, Abhishek Gupta, Shenlong Wang, Wei-Chiu Ma

分类: cs.CV, cs.RO

发布日期: 2025-04-21 (更新: 2025-04-22)

备注: Project page: https://drawer-art.github.io/


💡 一句话要点

DRAWER:基于视频的室内场景数字化重建与交互环境生成

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 场景重建 数字化环境 铰接对象 机器人仿真 游戏开发 双重场景表示 交互式环境

📋 核心要点

  1. 现有方法难以从视频中重建具有精细几何细节和交互性的室内场景,限制了其在游戏和机器人领域的应用。
  2. DRAWER通过双重场景表示进行重建,并引入铰接模块识别和重建可交互对象,从而生成逼真且可交互的数字环境。
  3. 实验表明,DRAWER能够自动创建Unreal Engine中的交互式游戏,并支持机器人应用的实物到仿真到实物的迁移。

📝 摘要(中文)

本文提出了一种名为DRAWER的新框架,可以将静态室内场景的视频转换为逼真的交互式数字环境。该方法的核心在于两个主要贡献:(i) 基于双重场景表示的重建模块,能够重建具有精细几何细节的场景;(ii) 铰接模块,可以识别铰接类型和铰链位置,重建可模拟的形状和外观,并将它们集成到场景中。生成的虚拟环境具有照片级的真实感,可交互,并能实时运行,兼容游戏引擎和机器人仿真平台。我们通过使用DRAWER自动创建Unreal Engine中的交互式游戏,并实现机器人应用的实物到仿真到实物的迁移,展示了该方法的潜力。

🔬 方法详解

问题定义:现有方法在从视频中重建室内场景时,难以兼顾几何细节的精细度和交互性。尤其是在处理包含可动部件(如抽屉、门)的场景时,重建的精度和可操作性往往不足,限制了其在游戏开发和机器人仿真等领域的应用。因此,如何从视频中自动重建具有高真实度和交互性的室内场景是一个关键问题。

核心思路:DRAWER的核心思路是采用一种双重场景表示方法,同时捕捉场景的几何细节和语义信息。此外,引入一个铰接模块,专门用于识别和重建场景中的可动部件,并将其集成到整体场景中。通过这种方式,DRAWER能够生成一个既逼真又可交互的数字环境。

技术框架:DRAWER框架主要包含两个模块:重建模块和铰接模块。重建模块基于双重场景表示,利用视频数据重建场景的几何结构和外观。铰接模块则负责识别场景中的铰接对象,估计铰链位置和运动范围,并重建可模拟的形状和外观。最后,将重建的铰接对象集成到整体场景中,生成可交互的数字环境。

关键创新:DRAWER的关键创新在于铰接模块的设计。该模块能够自动识别场景中的可动部件,并重建其运动学模型。这使得生成的数字环境不仅具有逼真的外观,还具有可交互性,从而能够支持更高级的应用,如游戏开发和机器人仿真。

关键设计:铰接模块的关键设计包括:(1) 使用深度学习方法识别铰接类型和铰链位置;(2) 设计一种参数化的铰接对象表示方法,能够简洁地描述铰接对象的几何形状和运动范围;(3) 使用物理引擎模拟铰接对象的运动,确保其运动的真实性和稳定性。具体的损失函数和网络结构等技术细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DRAWER通过实验验证了其有效性。实验结果表明,DRAWER能够生成具有高真实度和交互性的数字环境。与现有方法相比,DRAWER在几何重建精度和铰接对象重建质量方面均有显著提升。此外,DRAWER还成功应用于Unreal Engine中的交互式游戏创建和机器人应用的实物到仿真到实物的迁移,证明了其在实际应用中的潜力。

🎯 应用场景

DRAWER具有广泛的应用前景,包括游戏开发、机器人仿真、虚拟现实和增强现实等领域。它可以用于自动创建游戏场景,加速游戏开发流程。在机器人仿真领域,DRAWER可以用于生成逼真的仿真环境,帮助机器人进行训练和测试。此外,DRAWER还可以用于创建虚拟现实和增强现实应用,提供更沉浸式的用户体验。

📄 摘要(原文)

Creating virtual digital replicas from real-world data unlocks significant potential across domains like gaming and robotics. In this paper, we present DRAWER, a novel framework that converts a video of a static indoor scene into a photorealistic and interactive digital environment. Our approach centers on two main contributions: (i) a reconstruction module based on a dual scene representation that reconstructs the scene with fine-grained geometric details, and (ii) an articulation module that identifies articulation types and hinge positions, reconstructs simulatable shapes and appearances and integrates them into the scene. The resulting virtual environment is photorealistic, interactive, and runs in real time, with compatibility for game engines and robotic simulation platforms. We demonstrate the potential of DRAWER by using it to automatically create an interactive game in Unreal Engine and to enable real-to-sim-to-real transfer for robotics applications.