Human-in-the-Loop Local Corrections of 3D Scene Layouts via Infilling

📄 arXiv: 2503.11806v2 📥 PDF

作者: Christopher Xie, Armen Avetisyan, Henry Howard-Jenkins, Yawar Siddiqui, Julian Straub, Richard Newcombe, Vasileios Balntas, Jakob Engel

分类: cs.CV

发布日期: 2025-03-14 (更新: 2025-07-30)

备注: Project page: https://www.projectaria.com/scenescript/


💡 一句话要点

提出人机协同的3D场景布局局部修正方法,通过填补式编辑提升精度。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 3D场景布局 人机协同 局部修正 填补 SceneScript

📋 核心要点

  1. 现有3D场景布局估计方法难以处理复杂场景,且难以根据用户意图进行调整。
  2. 论文提出基于“填补”思想的局部校正任务,允许用户交互式地修正场景布局。
  3. 通过多任务学习改进SceneScript,使其在全局预测的同时具备强大的局部校正能力。

📝 摘要(中文)

本文提出了一种新颖的人机协同方法,用于估计3D场景布局,该方法利用来自以自我为中心的视角的的人工反馈。我们通过引入一种新的局部校正任务来研究这种方法,在该任务中,用户识别局部错误并提示模型自动校正它们。在SceneScript(一种利用结构化语言的先进3D场景布局估计框架)的基础上,我们提出了一种将此问题构建为“填补”的解决方案,这是自然语言处理中研究的任务。我们训练了一个多任务版本的SceneScript,它在保持全局预测性能的同时,显著提高了其局部校正能力。我们将其集成到人机协同系统中,使用户能够通过低摩擦的“一键修复”工作流程迭代地改进场景布局估计。我们的系统使最终改进的布局能够偏离训练分布,从而可以更准确地建模复杂布局。

🔬 方法详解

问题定义:论文旨在解决3D场景布局估计中,现有方法难以有效结合人工反馈进行局部修正的问题。现有方法通常是全自动的,难以根据用户的具体需求进行调整,并且在处理复杂或非典型的场景布局时容易出错。用户需要一种直观、高效的方式来修正这些错误,从而得到更准确、符合预期的场景布局。

核心思路:论文的核心思路是将局部修正问题转化为自然语言处理中的“填补”任务。用户通过指定需要修正的区域,模型则负责在该区域内“填补”缺失或错误的布局信息。这种方法允许用户以一种直观的方式引导模型进行修正,同时利用了模型已有的全局场景理解能力。

技术框架:整体框架是一个人机协同的迭代修正流程。首先,模型根据输入图像或点云等数据进行初始的3D场景布局估计。然后,用户通过交互界面识别并标记需要修正的局部区域。模型接收到用户的修正请求后,利用训练好的“填补”模型对该区域进行重新估计。最后,将修正后的局部区域与原始场景布局进行融合,得到更新后的场景布局。用户可以重复这个过程,直到得到满意的结果。

关键创新:最重要的技术创新点是将3D场景布局的局部修正问题与自然语言处理中的“填补”任务联系起来。这种方法不仅简化了用户交互,还允许模型利用已有的自然语言处理技术和模型。此外,论文还提出了一个多任务学习框架,使得模型在保持全局预测能力的同时,能够有效地进行局部修正。

关键设计:论文使用SceneScript作为基础框架,并对其进行了扩展。关键设计包括:1) 多任务学习目标,同时优化全局场景布局预测和局部区域填补;2) 基于Transformer的填补模型,用于预测局部区域的3D场景布局;3) 用户交互界面,允许用户方便地选择和标记需要修正的区域。损失函数包括全局布局预测损失和局部填补损失,通过调整权重平衡两个任务之间的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了所提出方法的有效性。实验结果表明,该方法能够显著提高3D场景布局估计的精度,尤其是在复杂场景和非典型布局的情况下。通过人机协同的迭代修正,最终的场景布局能够偏离训练分布,从而更好地适应用户的需求。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于室内设计、虚拟现实、机器人导航等领域。用户可以通过交互式地修正3D场景布局,快速生成符合需求的场景模型,提高工作效率。在机器人导航中,可以利用该方法修正地图中的错误,提高机器人的定位和导航精度。未来,该技术有望应用于自动驾驶、游戏开发等更广泛的领域。

📄 摘要(原文)

We present a novel human-in-the-loop approach to estimate 3D scene layout that uses human feedback from an egocentric standpoint. We study this approach through introduction of a novel local correction task, where users identify local errors and prompt a model to automatically correct them. Building on SceneScript, a state-of-the-art framework for 3D scene layout estimation that leverages structured language, we propose a solution that structures this problem as "infilling", a task studied in natural language processing. We train a multi-task version of SceneScript that maintains performance on global predictions while significantly improving its local correction ability. We integrate this into a human-in-the-loop system, enabling a user to iteratively refine scene layout estimates via a low-friction "one-click fix'' workflow. Our system enables the final refined layout to diverge from the training distribution, allowing for more accurate modelling of complex layouts.