VRCopilot: Authoring 3D Layouts with Generative AI Models in VR

📄 arXiv: 2408.09382v1 📥 PDF

作者: Lei Zhang, Jin Pan, Jacob Gettig, Steve Oney, Anhong Guo

分类: cs.HC, cs.AI, cs.ET

发布日期: 2024-08-18

备注: UIST 2024

DOI: 10.1145/3654777.3676451


💡 一句话要点

VRCopilot:在VR中利用生成式AI模型进行3D布局创作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 虚拟现实 生成式AI 3D布局创作 人机协同 多模态交互

📋 核心要点

  1. 现有3D场景创作在VR中面临挑战,如何有效利用生成式AI提升创作效率和用户体验是关键问题。
  2. VRCopilot通过集成预训练生成式AI模型,提供多模态交互和线框等中间表示,实现人机协同的3D布局创作。
  3. 用户研究表明,支架式创建增强了用户能动性,而手动创建提供了最高的创造力和能动性。

📝 摘要(中文)

沉浸式创作提供了一种直观的媒介,用户可以通过在虚拟现实(VR)中直接操作来创建3D场景。生成式AI的最新进展已经实现了逼真3D布局的自动创建。然而,生成式AI的能力如何在沉浸式创作中使用,以支持流畅的交互、用户能动性和创造力,目前尚不清楚。我们介绍了VRCopilot,这是一个混合主动系统,它将预训练的生成式AI模型集成到沉浸式创作中,以促进VR中的人机协同创作。VRCopilot提供多模态交互,以支持与AI的快速原型设计和迭代,以及线框等中间表示,以增强用户对所创建内容的可控性。通过一系列用户研究,我们评估了沉浸式创作中手动、支架式和自动创建的潜力和挑战。我们发现,与自动创建相比,使用线框的支架式创建增强了用户的能动性。我们还发现,通过多模态规范进行的手动创建提供了最高的创造力和能动性。

🔬 方法详解

问题定义:论文旨在解决在VR环境中如何有效利用生成式AI辅助用户进行3D场景布局创作的问题。现有方法要么是纯手动创作,效率较低;要么是完全自动生成,用户控制力不足,难以满足个性化需求。因此,如何在效率和用户控制之间取得平衡是一个挑战。

核心思路:论文的核心思路是构建一个混合主动系统,即VRCopilot,它允许用户以手动、支架式和自动三种模式与生成式AI模型进行交互。通过多模态交互和中间表示(如线框),用户可以更好地控制生成过程,实现人机协同创作。

技术框架:VRCopilot系统包含以下主要模块:1) 多模态输入模块,允许用户通过语音、手势等方式指定场景需求;2) 生成式AI模型,负责生成3D场景布局;3) 中间表示模块,将生成结果以线框等形式呈现,方便用户编辑和调整;4) 交互模块,支持用户对生成结果进行修改和优化。整体流程是:用户输入需求 -> AI模型生成初始布局 -> 用户通过中间表示进行编辑 -> 最终生成3D场景。

关键创新:论文的关键创新在于将生成式AI模型与VR沉浸式创作相结合,并引入了中间表示的概念,增强了用户对生成过程的控制力。与完全自动化的方法相比,VRCopilot允许用户在不同程度上参与创作过程,从而更好地满足个性化需求。

关键设计:VRCopilot的关键设计包括:1) 多模态交互方式,例如语音指令和手势操作;2) 线框作为中间表示,方便用户进行编辑;3) 三种创作模式(手动、支架式、自动),允许用户根据需求选择不同的参与程度;4) 具体的生成式AI模型选择(论文中使用的具体模型未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

用户研究表明,与自动创建相比,使用线框的支架式创建增强了用户的能动性。此外,通过多模态规范进行的手动创建提供了最高的创造力和能动性。这些结果表明,混合主动系统在VR内容创作中具有很大的潜力,可以在效率和用户控制之间取得平衡。

🎯 应用场景

VRCopilot可应用于游戏开发、室内设计、建筑可视化等领域。它可以帮助设计师快速创建3D场景原型,提高创作效率。此外,该系统还可以用于教育领域,帮助学生学习3D建模和场景设计。未来,VRCopilot有望成为VR内容创作的重要工具。

📄 摘要(原文)

Immersive authoring provides an intuitive medium for users to create 3D scenes via direct manipulation in Virtual Reality (VR). Recent advances in generative AI have enabled the automatic creation of realistic 3D layouts. However, it is unclear how capabilities of generative AI can be used in immersive authoring to support fluid interactions, user agency, and creativity. We introduce VRCopilot, a mixed-initiative system that integrates pre-trained generative AI models into immersive authoring to facilitate human-AI co-creation in VR. VRCopilot presents multimodal interactions to support rapid prototyping and iterations with AI, and intermediate representations such as wireframes to augment user controllability over the created content. Through a series of user studies, we evaluated the potential and challenges in manual, scaffolded, and automatic creation in immersive authoring. We found that scaffolded creation using wireframes enhanced the user agency compared to automatic creation. We also found that manual creation via multimodal specification offers the highest sense of creativity and agency.