Robust Prior-Guided Segmentation for Editable 3D Gaussian Splatting
作者: Raushan Joshi, Jean-Yves Guillemaut
分类: cs.CV, cs.AI
发布日期: 2026-05-15
备注: Accepted at IEEE International Conference on Image Processing 2026, 6 pages
💡 一句话要点
提出基于先验引导的分割方法,实现可编辑的3D高斯溅射
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)
关键词: 3D高斯溅射 场景分割 可编辑性 先验引导 多视角一致性
📋 核心要点
- 现有3D高斯溅射缺乏鲁棒的分割能力,限制了其在3D场景编辑任务中的应用,例如物体移除和着色。
- 该论文提出一种先验引导的标签重分配方法,结合高质量的2D分割结果,实现多视角一致的3D高斯分割。
- 实验结果表明,该方法能够实现高精度的3D分割,支持交互式的实时对象编辑,并在VR和机器人领域有应用潜力。
📝 摘要(中文)
3D高斯溅射(3D-GS)能够实现实时的3D场景重建,但缺乏鲁棒的分割能力,难以支持对象移除、提取和重新着色等编辑任务。现有的将2D分割提升到3D域的方法存在视角不一致和粗糙掩码的问题。本文提出了一种新的框架,利用Segment Anything Model High Quality (SAM-HQ)生成精确的2D掩码,克服了标准SAM在边界保真度和精细结构保留方面的局限性。为了实现场景中任意目标对象的鲁棒3D分割,我们引入了一种先验引导的标签重分配方法,通过强制执行多视角一致性和学习到的先验知识来为3D高斯分配标签。我们的方法实现了最先进的分割精度,并支持交互式的实时对象编辑,同时保持了高视觉保真度。定性结果表明,该方法在边界保持方面表现出色,并在虚拟现实(VR)和机器人技术中具有实际应用价值,从而推动了3D场景编辑的发展。
🔬 方法详解
问题定义:现有基于3D高斯溅射的场景重建方法缺乏有效的分割手段,难以进行交互式的编辑操作,例如移除特定物体或改变其颜色。直接将2D分割结果提升到3D空间,会受到视角不一致性的影响,导致分割结果不准确,且边界模糊。现有方法难以在保持高视觉质量的同时,实现鲁棒且精确的3D分割。
核心思路:该论文的核心思路是利用高质量的2D分割结果作为先验知识,指导3D高斯粒子的标签分配。通过学习到的先验信息和多视角一致性约束,优化3D高斯粒子的标签,从而实现鲁棒的3D分割。使用SAM-HQ模型生成高质量的2D分割掩码,克服了标准SAM在边界保真度方面的不足。
技术框架:该方法主要包含以下几个阶段:1) 使用SAM-HQ模型对多个视角的图像进行2D分割,生成高质量的2D掩码。2) 将2D掩码投影到3D空间,得到每个3D高斯粒子的初始标签。3) 利用先验引导的标签重分配方法,优化3D高斯粒子的标签,强制执行多视角一致性。4) 通过迭代优化,得到最终的3D分割结果。
关键创新:该方法最重要的创新点在于提出了先验引导的标签重分配方法。该方法利用学习到的先验知识,结合多视角一致性约束,有效地优化了3D高斯粒子的标签,从而实现了鲁棒的3D分割。与直接将2D分割提升到3D空间的方法相比,该方法能够更好地处理视角不一致性问题,并获得更精确的分割结果。
关键设计:该方法使用SAM-HQ模型生成高质量的2D分割掩码。先验引导的标签重分配方法通过最小化一个能量函数来实现,该能量函数包含数据项和正则化项。数据项用于保证3D高斯粒子的标签与2D分割结果的一致性,正则化项用于保证标签的平滑性。多视角一致性通过计算不同视角下3D高斯粒子标签的一致性来实现。具体的损失函数和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
该方法在多个数据集上进行了实验,结果表明,该方法能够实现最先进的分割精度,并在边界保持方面表现出色。与现有的方法相比,该方法能够更好地处理视角不一致性问题,并获得更精确的分割结果。定性结果表明,该方法能够支持交互式的实时对象编辑,并保持高视觉保真度。
🎯 应用场景
该研究成果可广泛应用于虚拟现实(VR)、增强现实(AR)和机器人等领域。例如,在VR/AR环境中,用户可以交互式地编辑3D场景,移除不需要的物体或改变物体的颜色。在机器人领域,该方法可以用于机器人对环境的理解和操作,例如机器人可以识别并抓取特定的物体。该研究为3D场景编辑和机器人操作提供了新的可能性。
📄 摘要(原文)
3D Gaussian Splatting (3D-GS) enables real-time 3D scene reconstruction but lacks robust segmentation for editing tasks such as object removal, extraction, and recoloring. Existing approaches that lift 2D segmentations to the 3D domain suffer from view inconsistencies and coarse masks. In this paper, we propose a novel framework that leverages the Segment Anything Model High Quality (SAM-HQ) to generate accurate 2D masks, addressing the limitations of the standard SAM in boundary fidelity and fine-structure preservation. To achieve robust 3D segmentation of any target object in a given scene, we introduce a prior-guided label reassignment method that assigns labels to 3D Gaussians by enforcing multiview consistency with learned priors. Our approach achieves state-of-the-art segmentation accuracy and enables interactive, real-time object editing while maintaining high visual fidelity. Qualitative results demonstrate superior boundary preservation and practical utility in Virtual Reality (VR) and robotics, advancing 3D scene editing.