Edit-As-Act: Goal-Regressive Planning for Open-Vocabulary 3D Indoor Scene Editing

作者: Seongrae Noh, SeungWon Seo, Gyeong-Moon Park, HyeongYeop Kang

分类: cs.CV, cs.AI

发布日期: 2026-03-18

备注: Accepted to CVPR 2026

💡 一句话要点

Edit-As-Act：面向开放词汇3D室内场景编辑的目标回溯规划

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D场景编辑 自然语言处理 目标回溯规划 机器人操作 物理合理性

📋 核心要点

现有开放词汇3D场景编辑系统通常重新生成大部分场景或依赖图像空间编辑，导致全局变化或物理不一致的布局。
Edit-As-Act将场景编辑视为目标回溯规划问题，通过预测目标谓词并在EditLang中规划动作来实现。
在E2A-Bench基准测试中，Edit-As-Act在指令保真度、语义一致性和物理合理性方面显著优于现有方法。

📝 摘要（中文）

本文提出了一种名为Edit-As-Act的框架，用于解决从自然语言编辑3D室内场景的问题。与现有方法将编辑视为生成任务不同，Edit-As-Act将编辑视为一个目标回溯规划问题。给定一个源场景和自由形式的指令，该框架预测符号目标谓词，并在EditLang中进行规划。EditLang是一种受PDDL启发的动作语言，具有显式的前提条件和效果，用于编码支持、接触、碰撞和其他几何关系。一个语言驱动的规划器提出动作，一个验证器执行目标导向性、单调性和物理可行性，从而产生可解释且物理上连贯的转换。通过将推理与低级生成分离，Edit-As-Act实现了指令保真度、语义一致性和物理合理性。在E2A-Bench基准测试中，Edit-As-Act在所有编辑类型和场景类别上均显著优于现有方法。

🔬 方法详解

问题定义：现有方法在开放词汇3D室内场景编辑中，要么需要重新生成大部分场景，计算成本高昂；要么依赖图像空间的编辑，容易破坏场景的空间结构，导致不希望出现的全局性改变，或者产生物理上不合理的布局。这些方法将编辑视为生成任务，缺乏对编辑动作的精确控制和物理约束。

核心思路：论文的核心思路是将3D场景编辑问题转化为一个目标回溯规划问题。用户给出的指令定义了期望的世界状态，而编辑的目标就是找到一系列最小化的动作，使得当前场景状态能够满足用户指令所描述的目标状态，同时尽可能地保持场景的其他部分不变。这种思路强调了编辑的精确性和效率。

技术框架：Edit-As-Act框架包含以下几个主要模块：1) 目标谓词预测器：根据自然语言指令预测场景编辑的目标谓词，例如“桌子上放一个杯子”。2) EditLang：一种受PDDL启发的动作语言，用于描述场景编辑的动作，包括动作的前提条件和执行效果，例如“放置物体”动作需要物体存在且目标位置空闲。3) 语言驱动的规划器：根据目标谓词和EditLang，规划出一系列动作。4) 验证器：验证规划的动作序列是否满足目标导向性、单调性和物理可行性。

关键创新：该论文的关键创新在于将3D场景编辑问题建模为目标回溯规划问题，并设计了EditLang动作语言。这种方法将高层次的推理与低层次的生成分离，使得编辑过程更加可控、可解释，并且能够保证编辑结果的物理合理性。与现有方法相比，Edit-As-Act避免了对整个场景的重新生成，提高了编辑效率和精度。

关键设计：EditLang动作语言的设计是关键。它需要能够精确地描述各种场景编辑动作，并且能够显式地编码动作的前提条件和执行效果，包括支持关系、接触关系、碰撞关系等几何关系。验证器通过检查动作序列是否满足这些前提条件和效果，来保证编辑结果的物理可行性。此外，目标谓词预测器的准确性也至关重要，它直接影响到规划器的效率和编辑结果的质量。论文中可能使用了特定的损失函数来训练目标谓词预测器，并可能采用了特定的网络结构来提高预测精度（具体细节未知）。

🖼️ 关键图片

📊 实验亮点

Edit-As-Act在E2A-Bench基准测试中取得了显著的性能提升，在所有编辑类型和场景类别上均优于现有方法。具体性能数据未知，但摘要强调了该方法在指令保真度、语义一致性和物理合理性方面的优势。该方法能够生成更符合用户意图、语义上一致且物理上合理的编辑结果。

🎯 应用场景

该研究成果可应用于室内设计、虚拟现实、游戏开发等领域。用户可以通过自然语言指令轻松修改3D室内场景，例如添加家具、调整布局等。该技术还可以用于机器人操作，指导机器人完成复杂的场景编辑任务。未来，该技术有望实现更加智能和自然的3D场景编辑体验。

📄 摘要（原文）

Editing a 3D indoor scene from natural language is conceptually straightforward but technically challenging. Existing open-vocabulary systems often regenerate large portions of a scene or rely on image-space edits that disrupt spatial structure, resulting in unintended global changes or physically inconsistent layouts. These limitations stem from treating editing primarily as a generative task. We take a different view. A user instruction defines a desired world state, and editing should be the minimal sequence of actions that makes this state true while preserving everything else. This perspective motivates Edit-As-Act, a framework that performs open-vocabulary scene editing as goal-regressive planning in 3D space. Given a source scene and free-form instruction, Edit-As-Act predicts symbolic goal predicates and plans in EditLang, a PDDL-inspired action language that we design with explicit preconditions and effects encoding support, contact, collision, and other geometric relations. A language-driven planner proposes actions, and a validator enforces goal-directedness, monotonicity, and physical feasibility, producing interpretable and physically coherent transformations. By separating reasoning from low-level generation, Edit-As-Act achieves instruction fidelity, semantic consistency, and physical plausibility - three criteria that existing paradigms cannot satisfy together. On E2A-Bench, our benchmark of 63 editing tasks across 9 indoor environments, Edit-As-Act significantly outperforms prior approaches across all edit types and scene categories.

Edit-As-Act: Goal-Regressive Planning for Open-Vocabulary 3D Indoor Scene Editing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理