Human-in-the-Loop Local Corrections of 3D Scene Layouts via Infilling

作者: Christopher Xie, Armen Avetisyan, Henry Howard-Jenkins, Yawar Siddiqui, Julian Straub, Richard Newcombe, Vasileios Balntas, Jakob Engel

分类: cs.CV

发布日期: 2025-03-14 (更新: 2025-07-30)

备注: Project page: https://www.projectaria.com/scenescript/

💡 一句话要点

提出人机协同的3D场景布局局部修正方法，通过填补式编辑提升精度。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 3D场景布局 人机协同 局部修正 填补 SceneScript

📋 核心要点

现有3D场景布局估计方法难以处理复杂场景，且难以根据用户意图进行调整。
论文提出基于“填补”思想的局部校正任务，允许用户交互式地修正场景布局。
通过多任务学习改进SceneScript，使其在全局预测的同时具备强大的局部校正能力。

📝 摘要（中文）

本文提出了一种新颖的人机协同方法，用于估计3D场景布局，该方法利用来自以自我为中心的视角的的人工反馈。我们通过引入一种新的局部校正任务来研究这种方法，在该任务中，用户识别局部错误并提示模型自动校正它们。在SceneScript（一种利用结构化语言的先进3D场景布局估计框架）的基础上，我们提出了一种将此问题构建为“填补”的解决方案，这是自然语言处理中研究的任务。我们训练了一个多任务版本的SceneScript，它在保持全局预测性能的同时，显著提高了其局部校正能力。我们将其集成到人机协同系统中，使用户能够通过低摩擦的“一键修复”工作流程迭代地改进场景布局估计。我们的系统使最终改进的布局能够偏离训练分布，从而可以更准确地建模复杂布局。

🔬 方法详解

问题定义：论文旨在解决3D场景布局估计中，现有方法难以有效结合人工反馈进行局部修正的问题。现有方法通常是全自动的，难以根据用户的具体需求进行调整，并且在处理复杂或非典型的场景布局时容易出错。用户需要一种直观、高效的方式来修正这些错误，从而得到更准确、符合预期的场景布局。

核心思路：论文的核心思路是将局部修正问题转化为自然语言处理中的“填补”任务。用户通过指定需要修正的区域，模型则负责在该区域内“填补”缺失或错误的布局信息。这种方法允许用户以一种直观的方式引导模型进行修正，同时利用了模型已有的全局场景理解能力。

技术框架：整体框架是一个人机协同的迭代修正流程。首先，模型根据输入图像或点云等数据进行初始的3D场景布局估计。然后，用户通过交互界面识别并标记需要修正的局部区域。模型接收到用户的修正请求后，利用训练好的“填补”模型对该区域进行重新估计。最后，将修正后的局部区域与原始场景布局进行融合，得到更新后的场景布局。用户可以重复这个过程，直到得到满意的结果。

关键创新：最重要的技术创新点是将3D场景布局的局部修正问题与自然语言处理中的“填补”任务联系起来。这种方法不仅简化了用户交互，还允许模型利用已有的自然语言处理技术和模型。此外，论文还提出了一个多任务学习框架，使得模型在保持全局预测能力的同时，能够有效地进行局部修正。

关键设计：论文使用SceneScript作为基础框架，并对其进行了扩展。关键设计包括：1) 多任务学习目标，同时优化全局场景布局预测和局部区域填补；2) 基于Transformer的填补模型，用于预测局部区域的3D场景布局；3) 用户交互界面，允许用户方便地选择和标记需要修正的区域。损失函数包括全局布局预测损失和局部填补损失，通过调整权重平衡两个任务之间的性能。

🖼️ 关键图片

📊 实验亮点

论文通过实验验证了所提出方法的有效性。实验结果表明，该方法能够显著提高3D场景布局估计的精度，尤其是在复杂场景和非典型布局的情况下。通过人机协同的迭代修正，最终的场景布局能够偏离训练分布，从而更好地适应用户的需求。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于室内设计、虚拟现实、机器人导航等领域。用户可以通过交互式地修正3D场景布局，快速生成符合需求的场景模型，提高工作效率。在机器人导航中，可以利用该方法修正地图中的错误，提高机器人的定位和导航精度。未来，该技术有望应用于自动驾驶、游戏开发等更广泛的领域。

📄 摘要（原文）

We present a novel human-in-the-loop approach to estimate 3D scene layout that uses human feedback from an egocentric standpoint. We study this approach through introduction of a novel local correction task, where users identify local errors and prompt a model to automatically correct them. Building on SceneScript, a state-of-the-art framework for 3D scene layout estimation that leverages structured language, we propose a solution that structures this problem as "infilling", a task studied in natural language processing. We train a multi-task version of SceneScript that maintains performance on global predictions while significantly improving its local correction ability. We integrate this into a human-in-the-loop system, enabling a user to iteratively refine scene layout estimates via a low-friction "one-click fix'' workflow. Our system enables the final refined layout to diverge from the training distribution, allowing for more accurate modelling of complex layouts.

Human-in-the-Loop Local Corrections of 3D Scene Layouts via Infilling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理