Edit-As-Act: Goal-Regressive Planning for Open-Vocabulary 3D Indoor Scene Editing
作者: Seongrae Noh, SeungWon Seo, Gyeong-Moon Park, HyeongYeop Kang
分类: cs.CV, cs.AI
发布日期: 2026-03-18
备注: Accepted to CVPR 2026
💡 一句话要点
Edit-As-Act:面向开放词汇3D室内场景编辑的目标回溯规划
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D场景编辑 自然语言处理 目标回溯规划 机器人操作 物理合理性
📋 核心要点
- 现有开放词汇3D场景编辑系统通常重新生成大部分场景或依赖图像空间编辑,导致全局变化或物理不一致的布局。
- Edit-As-Act将场景编辑视为目标回溯规划问题,通过预测目标谓词并在EditLang中规划动作来实现。
- 在E2A-Bench基准测试中,Edit-As-Act在指令保真度、语义一致性和物理合理性方面显著优于现有方法。
📝 摘要(中文)
本文提出了一种名为Edit-As-Act的框架,用于解决从自然语言编辑3D室内场景的问题。与现有方法将编辑视为生成任务不同,Edit-As-Act将编辑视为一个目标回溯规划问题。给定一个源场景和自由形式的指令,该框架预测符号目标谓词,并在EditLang中进行规划。EditLang是一种受PDDL启发的动作语言,具有显式的前提条件和效果,用于编码支持、接触、碰撞和其他几何关系。一个语言驱动的规划器提出动作,一个验证器执行目标导向性、单调性和物理可行性,从而产生可解释且物理上连贯的转换。通过将推理与低级生成分离,Edit-As-Act实现了指令保真度、语义一致性和物理合理性。在E2A-Bench基准测试中,Edit-As-Act在所有编辑类型和场景类别上均显著优于现有方法。
🔬 方法详解
问题定义:现有方法在开放词汇3D室内场景编辑中,要么需要重新生成大部分场景,计算成本高昂;要么依赖图像空间的编辑,容易破坏场景的空间结构,导致不希望出现的全局性改变,或者产生物理上不合理的布局。这些方法将编辑视为生成任务,缺乏对编辑动作的精确控制和物理约束。
核心思路:论文的核心思路是将3D场景编辑问题转化为一个目标回溯规划问题。用户给出的指令定义了期望的世界状态,而编辑的目标就是找到一系列最小化的动作,使得当前场景状态能够满足用户指令所描述的目标状态,同时尽可能地保持场景的其他部分不变。这种思路强调了编辑的精确性和效率。
技术框架:Edit-As-Act框架包含以下几个主要模块:1) 目标谓词预测器:根据自然语言指令预测场景编辑的目标谓词,例如“桌子上放一个杯子”。2) EditLang:一种受PDDL启发的动作语言,用于描述场景编辑的动作,包括动作的前提条件和执行效果,例如“放置物体”动作需要物体存在且目标位置空闲。3) 语言驱动的规划器:根据目标谓词和EditLang,规划出一系列动作。4) 验证器:验证规划的动作序列是否满足目标导向性、单调性和物理可行性。
关键创新:该论文的关键创新在于将3D场景编辑问题建模为目标回溯规划问题,并设计了EditLang动作语言。这种方法将高层次的推理与低层次的生成分离,使得编辑过程更加可控、可解释,并且能够保证编辑结果的物理合理性。与现有方法相比,Edit-As-Act避免了对整个场景的重新生成,提高了编辑效率和精度。
关键设计:EditLang动作语言的设计是关键。它需要能够精确地描述各种场景编辑动作,并且能够显式地编码动作的前提条件和执行效果,包括支持关系、接触关系、碰撞关系等几何关系。验证器通过检查动作序列是否满足这些前提条件和效果,来保证编辑结果的物理可行性。此外,目标谓词预测器的准确性也至关重要,它直接影响到规划器的效率和编辑结果的质量。论文中可能使用了特定的损失函数来训练目标谓词预测器,并可能采用了特定的网络结构来提高预测精度(具体细节未知)。
🖼️ 关键图片
📊 实验亮点
Edit-As-Act在E2A-Bench基准测试中取得了显著的性能提升,在所有编辑类型和场景类别上均优于现有方法。具体性能数据未知,但摘要强调了该方法在指令保真度、语义一致性和物理合理性方面的优势。该方法能够生成更符合用户意图、语义上一致且物理上合理的编辑结果。
🎯 应用场景
该研究成果可应用于室内设计、虚拟现实、游戏开发等领域。用户可以通过自然语言指令轻松修改3D室内场景,例如添加家具、调整布局等。该技术还可以用于机器人操作,指导机器人完成复杂的场景编辑任务。未来,该技术有望实现更加智能和自然的3D场景编辑体验。
📄 摘要(原文)
Editing a 3D indoor scene from natural language is conceptually straightforward but technically challenging. Existing open-vocabulary systems often regenerate large portions of a scene or rely on image-space edits that disrupt spatial structure, resulting in unintended global changes or physically inconsistent layouts. These limitations stem from treating editing primarily as a generative task. We take a different view. A user instruction defines a desired world state, and editing should be the minimal sequence of actions that makes this state true while preserving everything else. This perspective motivates Edit-As-Act, a framework that performs open-vocabulary scene editing as goal-regressive planning in 3D space. Given a source scene and free-form instruction, Edit-As-Act predicts symbolic goal predicates and plans in EditLang, a PDDL-inspired action language that we design with explicit preconditions and effects encoding support, contact, collision, and other geometric relations. A language-driven planner proposes actions, and a validator enforces goal-directedness, monotonicity, and physical feasibility, producing interpretable and physically coherent transformations. By separating reasoning from low-level generation, Edit-As-Act achieves instruction fidelity, semantic consistency, and physical plausibility - three criteria that existing paradigms cannot satisfy together. On E2A-Bench, our benchmark of 63 editing tasks across 9 indoor environments, Edit-As-Act significantly outperforms prior approaches across all edit types and scene categories.