Towards Scalable and Consistent 3D Editing

📄 arXiv: 2510.02994v1 📥 PDF

作者: Ruihao Xia, Yang Tang, Pan Zhou

分类: cs.CV

发布日期: 2025-10-03


💡 一句话要点

提出3DEditFormer,实现可扩展且一致的3D编辑,并构建大规模数据集3DEditVerse。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D编辑 条件Transformer 图像到3D生成 双重引导注意力 时间自适应门控

📋 核心要点

  1. 现有3D编辑方法面临跨视图一致性、结构保真度和细粒度控制的挑战,且速度慢、易失真,依赖不切实际的手动3D掩码。
  2. 论文提出3DEditFormer,利用双重引导注意力和时间自适应门控,在图像到3D生成过程中解耦可编辑区域和保留结构。
  3. 实验结果表明,3DEditFormer在定量和定性上均超越现有技术,为实用且可扩展的3D编辑设立了新标准。

📝 摘要(中文)

3D编辑,即局部修改3D资产的几何形状或外观,在沉浸式内容创作、数字娱乐和AR/VR中具有广泛的应用。然而,与2D编辑不同,由于需要跨视图一致性、结构保真度和细粒度可控性,3D编辑仍然具有挑战性。现有方法通常速度慢、容易产生几何失真,或者依赖于手动且精确的3D掩码,这些掩码容易出错且不切实际。为了应对这些挑战,我们在数据和模型方面都取得了进展。在数据方面,我们推出了迄今为止最大的配对3D编辑基准3DEditVerse,包含116,309个高质量训练对和1,500个精心策划的测试对。3DEditVerse通过姿势驱动的几何编辑和基础模型引导的外观编辑的互补流程构建,确保了编辑局部性、多视图一致性和语义对齐。在模型方面,我们提出了3DEditFormer,一种3D结构保持的条件Transformer。通过使用双重引导注意力和时间自适应门控增强图像到3D的生成,3DEditFormer将可编辑区域与保留结构分离,无需辅助3D掩码即可实现精确且一致的编辑。大量实验表明,我们的框架在定量和定性方面都优于最先进的基线,为实用且可扩展的3D编辑建立了新标准。数据集和代码将会发布。项目地址:https://www.lv-lab.org/3DEditFormer/

🔬 方法详解

问题定义:论文旨在解决3D编辑中存在的跨视图一致性、结构保真度和细粒度控制难题。现有方法的痛点在于速度慢、容易产生几何失真,以及对不精确且不实用的手动3D掩码的依赖。这些问题限制了3D编辑的实用性和可扩展性。

核心思路:论文的核心思路是通过解耦可编辑区域和保留结构来实现精确且一致的3D编辑。通过引入双重引导注意力和时间自适应门控机制,模型能够更好地理解和控制3D场景的结构,从而在编辑过程中保持结构保真度。这种设计避免了对精确3D掩码的依赖,提高了编辑的效率和鲁棒性。

技术框架:3DEditFormer的整体框架是一个条件Transformer架构,用于图像到3D的生成。该框架包含以下主要模块:1)图像编码器,用于提取输入图像的特征;2)双重引导注意力模块,用于融合图像特征和编辑指令;3)时间自适应门控模块,用于控制编辑的影响范围;4)3D解码器,用于生成编辑后的3D模型。整个流程从输入图像和编辑指令开始,经过编码、融合、控制和解码等阶段,最终生成编辑后的3D模型。

关键创新:最重要的技术创新点在于双重引导注意力和时间自适应门控机制。双重引导注意力能够同时关注图像特征和编辑指令,从而实现更精确的编辑控制。时间自适应门控能够根据编辑指令动态调整编辑的影响范围,从而避免对非编辑区域的干扰。与现有方法相比,3DEditFormer无需依赖精确的3D掩码,能够实现更高效、更鲁棒的3D编辑。

关键设计:在双重引导注意力模块中,论文采用了交叉注意力机制,将图像特征和编辑指令进行融合。在时间自适应门控模块中,论文使用了一个可学习的门控函数,根据编辑指令动态调整门控值。此外,论文还设计了一个结构保持损失函数,用于约束编辑后的3D模型保持原始结构的完整性。具体的参数设置和网络结构细节在论文中有详细描述。

📊 实验亮点

论文构建了大规模3D编辑数据集3DEditVerse,包含116,309个训练对和1,500个测试对。实验结果表明,3DEditFormer在3D编辑任务上显著优于现有方法,在多项指标上取得了SOTA结果。具体性能数据和对比基线在论文中有详细展示,证明了该框架的有效性和优越性。

🎯 应用场景

该研究成果可广泛应用于沉浸式内容创作、数字娱乐、AR/VR等领域。例如,游戏开发者可以使用该技术快速修改游戏中的3D角色和场景,AR/VR应用开发者可以使用该技术创建更具交互性和个性化的3D体验。该研究的实际价值在于提高了3D编辑的效率和质量,降低了3D内容创作的门槛。未来,该技术有望成为3D内容创作的重要工具。

📄 摘要(原文)

3D editing - the task of locally modifying the geometry or appearance of a 3D asset - has wide applications in immersive content creation, digital entertainment, and AR/VR. However, unlike 2D editing, it remains challenging due to the need for cross-view consistency, structural fidelity, and fine-grained controllability. Existing approaches are often slow, prone to geometric distortions, or dependent on manual and accurate 3D masks that are error-prone and impractical. To address these challenges, we advance both the data and model fronts. On the data side, we introduce 3DEditVerse, the largest paired 3D editing benchmark to date, comprising 116,309 high-quality training pairs and 1,500 curated test pairs. Built through complementary pipelines of pose-driven geometric edits and foundation model-guided appearance edits, 3DEditVerse ensures edit locality, multi-view consistency, and semantic alignment. On the model side, we propose 3DEditFormer, a 3D-structure-preserving conditional transformer. By enhancing image-to-3D generation with dual-guidance attention and time-adaptive gating, 3DEditFormer disentangles editable regions from preserved structure, enabling precise and consistent edits without requiring auxiliary 3D masks. Extensive experiments demonstrate that our framework outperforms state-of-the-art baselines both quantitatively and qualitatively, establishing a new standard for practical and scalable 3D editing. Dataset and code will be released. Project: https://www.lv-lab.org/3DEditFormer/