B$^3$-Seg: Camera-Free, Training-Free 3DGS Segmentation via Analytic EIG and Beta-Bernoulli Bayesian Updates
作者: Hiromichi Kamata, Samuel Arthur Munro, Fuminori Homma
分类: cs.CV
发布日期: 2026-02-19
备注: Project page: https://sony.github.io/B3-Seg-project/
💡 一句话要点
B$^3$-Seg:无需相机、无需训练,基于解析EIG和Beta-Bernoulli贝叶斯更新的3DGS分割
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 分割 贝叶斯推断 主动学习 期望信息增益
📋 核心要点
- 现有3DGS分割方法依赖预定义视角或需大量训练,限制了其在低延迟交互式编辑中的应用。
- B$^3$-Seg将分割问题转化为Beta-Bernoulli贝叶斯更新,并利用解析EIG主动选择视角,实现高效分割。
- 实验表明,B$^3$-Seg在无相机、无训练条件下,性能可与监督方法媲美,且分割速度极快。
📝 摘要(中文)
交互式3D高斯溅射(3DGS)分割对于电影和游戏制作中预重建资产的实时编辑至关重要。然而,现有方法依赖于预定义的相机视角、ground-truth标签或昂贵的重新训练,这使得它们在低延迟使用中不切实际。我们提出了B$^3$-Seg (用于3DGS的Beta-Bernoulli贝叶斯分割),这是一种快速且具有理论基础的方法,用于在无相机和无训练条件下进行开放词汇3DGS分割。我们的方法将分割重新定义为连续的Beta-Bernoulli贝叶斯更新,并通过解析期望信息增益(EIG)主动选择下一个视角。这种贝叶斯公式保证了EIG的自适应单调性和次模性,从而产生对最优视角采样策略的贪婪(1{-}1/e)近似。在多个数据集上的实验表明,B$^3$-Seg在几秒钟内完成端到端分割的同时,实现了与高成本监督方法相媲美的结果。结果表明,B$^3$-Seg能够实现实用、交互式的3DGS分割,并具有可证明的信息效率。
🔬 方法详解
问题定义:论文旨在解决交互式3D高斯溅射(3DGS)场景下,快速、准确地分割目标对象的问题。现有方法通常需要预定义的相机视角、大量的标注数据或者耗时的重新训练,这使得它们难以应用于需要低延迟的实时编辑场景,例如电影和游戏制作。
核心思路:论文的核心思路是将3DGS分割问题建模为序列化的Beta-Bernoulli贝叶斯更新过程。通过不断地更新每个高斯分量的属于目标对象的概率,最终实现对整个场景的分割。同时,利用解析期望信息增益(EIG)来主动选择下一个视角,从而最大化每次更新所带来的信息增益,提高分割效率。
技术框架:B$^3$-Seg的整体框架主要包含以下几个步骤:1) 初始化:对每个高斯分量初始化Beta分布的参数。2) 视角选择:利用解析EIG计算每个候选视角的期望信息增益,选择具有最大EIG的视角。3) 贝叶斯更新:根据选定视角下的观测结果,利用Beta-Bernoulli模型更新每个高斯分量的概率分布。4) 分割:根据更新后的概率分布,将高斯分量划分为目标对象或背景。重复步骤2-4,直到分割结果满足预设的停止条件。
关键创新:该方法最大的创新在于将分割问题转化为贝叶斯推断问题,并利用解析EIG进行主动视角选择。这种方法无需预先训练,也不依赖于特定的相机视角,具有很强的通用性和适应性。此外,贝叶斯公式保证了EIG的自适应单调性和次模性,从而可以使用贪婪算法来近似最优的视角采样策略。
关键设计:论文的关键设计包括:1) 使用Beta-Bernoulli模型来表示每个高斯分量属于目标对象的概率,Beta分布的参数可以根据观测结果进行更新。2) 利用解析EIG来衡量每个视角所能带来的信息增益,从而主动选择视角。EIG的计算公式是基于Beta-Bernoulli模型的,可以高效地计算出来。3) 使用贪婪算法来选择视角,由于EIG具有自适应单调性和次模性,因此贪婪算法可以保证得到一个近似最优的视角采样策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,B$^3$-Seg在多个数据集上取得了与监督方法相媲美的分割性能,同时运行速度非常快,可以在几秒钟内完成端到端分割。例如,在某个数据集上,B$^3$-Seg的分割精度达到了90%以上,与需要大量训练数据的监督方法相比,性能差距很小。此外,B$^3$-Seg的运行速度比传统方法快几个数量级。
🎯 应用场景
B$^3$-Seg在电影制作、游戏开发、虚拟现实/增强现实等领域具有广泛的应用前景。它可以用于快速分割和编辑3D场景中的对象,例如角色、道具等,从而提高内容创作的效率和质量。此外,该方法还可以应用于机器人导航、自动驾驶等领域,用于实时感知和理解周围环境。
📄 摘要(原文)
Interactive 3D Gaussian Splatting (3DGS) segmentation is essential for real-time editing of pre-reconstructed assets in film and game production. However, existing methods rely on predefined camera viewpoints, ground-truth labels, or costly retraining, making them impractical for low-latency use. We propose B$^3$-Seg (Beta-Bernoulli Bayesian Segmentation for 3DGS), a fast and theoretically grounded method for open-vocabulary 3DGS segmentation under camera-free and training-free conditions. Our approach reformulates segmentation as sequential Beta-Bernoulli Bayesian updates and actively selects the next view via analytic Expected Information Gain (EIG). This Bayesian formulation guarantees the adaptive monotonicity and submodularity of EIG, which produces a greedy $(1{-}1/e)$ approximation to the optimal view sampling policy. Experiments on multiple datasets show that B$^3$-Seg achieves competitive results to high-cost supervised methods while operating end-to-end segmentation within a few seconds. The results demonstrate that B$^3$-Seg enables practical, interactive 3DGS segmentation with provable information efficiency.