InterGSEdit: Interactive 3D Gaussian Splatting Editing with 3D Geometry-Consistent Attention Prior

📄 arXiv: 2507.04961v1 📥 PDF

作者: Minghao Wen, Shengjie Wu, Kangkan Wang, Dong Liang

分类: cs.CV

发布日期: 2025-07-07


💡 一句话要点

InterGSEdit:利用几何一致性注意力先验实现交互式3D高斯溅射编辑

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 3D高斯溅射 3D编辑 几何一致性 注意力机制 用户交互

📋 核心要点

  1. 现有3D高斯溅射编辑方法在非刚性变形区域存在局部不一致性问题,导致伪影和模糊。
  2. InterGSEdit通过交互式选择关键视图,并引入3D几何一致性注意力先验来解决一致性问题。
  3. 实验表明,InterGSEdit在3DGS编辑中实现了最先进的性能,提升了用户体验和编辑质量。

📝 摘要(中文)

近年来,基于3D高斯溅射的3D编辑展现了令人印象深刻的性能。然而,多视角编辑经常表现出显著的局部不一致性,尤其是在非刚性变形区域,这会导致编辑后的3D场景中出现局部伪影、纹理模糊或语义变化。此外,现有完全依赖文本提示的编辑方法使得编辑过程成为“一次性交易”,用户难以灵活控制编辑程度。为了应对这些挑战,我们提出了InterGSEdit,这是一个新颖的框架,通过交互式地选择具有用户偏好的关键视图来实现高质量的3DGS编辑。我们提出了一种基于CLIP的语义一致性选择(CSCS)策略,以自适应地为每个用户选择的关键视图筛选一组语义一致的参考视图。然后,将从参考视图导出的交叉注意力图用于加权高斯溅射反投影,以构建3D几何一致性注意力先验($GAP^{3D}$)。我们投影$GAP^{3D}$以获得3D约束的注意力,并通过注意力融合网络(AFN)将其与2D交叉注意力融合。AFN采用自适应注意力策略,在早期推理中优先考虑3D约束的注意力以实现几何一致性,并在后期推理的扩散过程中逐渐优先考虑2D交叉注意力图以获得细粒度特征。大量实验表明,InterGSEdit实现了最先进的性能,提供了具有改进用户体验的一致、高保真度的3DGS编辑。

🔬 方法详解

问题定义:现有的基于3D高斯溅射(3DGS)的编辑方法,尤其是在处理非刚性形变时,容易出现局部不一致性,导致伪影、纹理模糊和语义变化。此外,完全依赖文本提示的编辑方式缺乏交互性,用户难以灵活控制编辑的程度。

核心思路:InterGSEdit的核心思路是通过引入用户交互来选择关键视图,并利用这些视图构建3D几何一致性注意力先验($GAP^{3D}$)。通过在编辑过程中融合3D几何信息和2D图像信息,从而提高编辑结果的局部一致性和整体质量。

技术框架:InterGSEdit框架主要包含以下几个模块:1) 用户交互式关键视图选择;2) 基于CLIP的语义一致性选择(CSCS),用于筛选与关键视图语义一致的参考视图;3) 利用参考视图的交叉注意力图构建3D几何一致性注意力先验($GAP^{3D}$);4) 将$GAP^{3D}$投影到2D,并与2D交叉注意力通过注意力融合网络(AFN)进行融合;5) 利用融合后的注意力图进行3DGS的编辑。

关键创新:该方法最重要的创新在于引入了3D几何一致性注意力先验($GAP^{3D}$),它利用参考视图的几何信息来约束编辑过程,从而提高编辑结果的局部一致性。与现有方法相比,InterGSEdit不仅仅依赖于2D图像信息,而是将3D几何信息融入到编辑过程中,从而更好地处理非刚性形变等复杂情况。

关键设计:CSCS策略使用CLIP模型来评估视图之间的语义一致性,选择与关键视图语义最接近的参考视图。注意力融合网络(AFN)采用自适应注意力策略,在早期推理阶段优先考虑3D约束的注意力,以保证几何一致性,而在后期推理阶段逐渐优先考虑2D交叉注意力,以获得更精细的特征。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InterGSEdit通过引入3D几何一致性注意力先验,在3DGS编辑任务上取得了state-of-the-art的性能。实验结果表明,该方法能够显著提高编辑结果的局部一致性和整体质量,减少伪影和模糊,并提供更灵活的用户交互体验。具体的性能数据和对比基线在论文中进行了详细展示(未知)。

🎯 应用场景

InterGSEdit可应用于虚拟现实、增强现实、游戏开发、电影制作等领域,用于创建和编辑高质量的3D场景。该方法能够提升3D内容的创作效率和质量,并为用户提供更灵活、更可控的编辑体验。未来,该技术有望进一步扩展到更复杂的场景和更广泛的应用领域。

📄 摘要(原文)

3D Gaussian Splatting based 3D editing has demonstrated impressive performance in recent years. However, the multi-view editing often exhibits significant local inconsistency, especially in areas of non-rigid deformation, which lead to local artifacts, texture blurring, or semantic variations in edited 3D scenes. We also found that the existing editing methods, which rely entirely on text prompts make the editing process a "one-shot deal", making it difficult for users to control the editing degree flexibly. In response to these challenges, we present InterGSEdit, a novel framework for high-quality 3DGS editing via interactively selecting key views with users' preferences. We propose a CLIP-based Semantic Consistency Selection (CSCS) strategy to adaptively screen a group of semantically consistent reference views for each user-selected key view. Then, the cross-attention maps derived from the reference views are used in a weighted Gaussian Splatting unprojection to construct the 3D Geometry-Consistent Attention Prior ($GAP^{3D}$). We project $GAP^{3D}$ to obtain 3D-constrained attention, which are fused with 2D cross-attention via Attention Fusion Network (AFN). AFN employs an adaptive attention strategy that prioritizes 3D-constrained attention for geometric consistency during early inference, and gradually prioritizes 2D cross-attention maps in diffusion for fine-grained features during the later inference. Extensive experiments demonstrate that InterGSEdit achieves state-of-the-art performance, delivering consistent, high-fidelity 3DGS editing with improved user experience.