EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting

📄 arXiv: 2503.11345v1 📥 PDF

作者: Di Li, Jie Feng, Jiahao Chen, Weisheng Dong, Guanbin Li, Guangming Shi, Licheng Jiao

分类: cs.CV

发布日期: 2025-03-14


💡 一句话要点

EgoSplat:基于语言嵌入3D高斯溅射的开放词汇第一人称视角场景理解

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 第一人称视角场景理解 3D高斯溅射 语言嵌入 多视角一致性 时空瞬态预测

📋 核心要点

  1. 第一人称视角场景理解面临遮挡、视角变化和动态交互带来的语义不一致和伪影问题。
  2. EgoSplat通过多视角一致的实例特征聚合和实例感知的时空瞬态预测来提升语义表示的精确性和时空连续性。
  3. 实验结果表明,EgoSplat在定位精度和分割mIoU上均优于现有方法,并在ADT数据集上取得了显著提升。

📝 摘要(中文)

本文提出EgoSplat,一个用于开放词汇第一人称视角场景理解的语言嵌入3D高斯溅射框架。相较于典型的场景理解任务,第一人称视角场景表现出频繁的遮挡、多变的视角和动态的交互。遮挡和视角变化会导致多视角语义不一致,而动态物体可能作为瞬态干扰,给语义特征建模引入伪影。为了解决这些挑战,我们设计了一种多视角一致的实例特征聚合方法,利用SAM2的分割和跟踪能力,选择性地聚合每个实例跨视角的互补特征,确保场景的精确语义表示。此外,构建了一个实例感知的时空瞬态预测模块,通过结合多视角实例之间的时空关联,提高预测的空间完整性和时间连续性,有效减少第一人称视角场景语义重建中的伪影。EgoSplat在两个数据集上的定位和分割任务中均取得了最先进的性能,在ADT数据集上,定位精度提高了8.2%,分割mIoU提高了3.7%,为开放词汇第一人称视角场景理解设定了新的基准。代码将会公开。

🔬 方法详解

问题定义:第一人称视角场景理解任务中,由于视角频繁变化、遮挡严重以及动态物体干扰,导致传统方法难以获得鲁棒且准确的场景语义表示。现有方法在处理多视角语义一致性以及消除动态物体造成的伪影方面存在不足,影响了场景理解的性能。

核心思路:EgoSplat的核心思路是将3D高斯溅射与语言嵌入相结合,利用3D高斯溅射的显式几何表示能力和语言模型的语义理解能力,实现开放词汇场景理解。通过多视角一致的实例特征聚合,增强语义表示的准确性;通过实例感知的时空瞬态预测,减少动态物体造成的伪影,提升时空连续性。

技术框架:EgoSplat框架主要包含以下几个模块:1) 基于SAM2的实例分割与跟踪模块,用于提取多视角下的实例分割和跟踪信息;2) 多视角一致的实例特征聚合模块,用于选择性地聚合跨视角的互补特征,增强实例的语义表示;3) 实例感知的时空瞬态预测模块,用于预测和消除动态物体造成的瞬态伪影;4) 语言嵌入模块,将语言描述嵌入到3D高斯溅射中,实现开放词汇场景理解。

关键创新:EgoSplat的关键创新在于:1) 提出了一种多视角一致的实例特征聚合方法,能够有效地利用多视角信息,提高语义表示的准确性;2) 构建了一个实例感知的时空瞬态预测模块,能够有效地减少动态物体造成的伪影,提升时空连续性;3) 将语言嵌入与3D高斯溅射相结合,实现了开放词汇场景理解。

关键设计:在多视角一致的实例特征聚合模块中,利用SAM2提供的分割和跟踪信息,为每个实例选择性地聚合来自不同视角的特征。在实例感知的时空瞬态预测模块中,使用时空图神经网络来建模多视角实例之间的时空关联,并预测每个实例在下一时刻的状态。损失函数包括分割损失、跟踪损失和重建损失,用于优化模型的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EgoSplat在ADT数据集上取得了显著的性能提升,定位精度提高了8.2%,分割mIoU提高了3.7%,超过了现有的最先进方法。实验结果表明,EgoSplat能够有效地处理第一人称视角场景中的遮挡、视角变化和动态物体干扰,实现更准确、更鲁棒的场景理解。

🎯 应用场景

EgoSplat在机器人导航、增强现实、虚拟现实等领域具有广泛的应用前景。例如,可以应用于智能助手中,帮助用户理解周围环境并进行交互;也可以应用于自动驾驶系统中,提高车辆对复杂场景的感知能力。该研究为第一人称视角场景理解提供了新的思路,有望推动相关领域的发展。

📄 摘要(原文)

Egocentric scenes exhibit frequent occlusions, varied viewpoints, and dynamic interactions compared to typical scene understanding tasks. Occlusions and varied viewpoints can lead to multi-view semantic inconsistencies, while dynamic objects may act as transient distractors, introducing artifacts into semantic feature modeling. To address these challenges, we propose EgoSplat, a language-embedded 3D Gaussian Splatting framework for open-vocabulary egocentric scene understanding. A multi-view consistent instance feature aggregation method is designed to leverage the segmentation and tracking capabilities of SAM2 to selectively aggregate complementary features across views for each instance, ensuring precise semantic representation of scenes. Additionally, an instance-aware spatial-temporal transient prediction module is constructed to improve spatial integrity and temporal continuity in predictions by incorporating spatial-temporal associations across multi-view instances, effectively reducing artifacts in the semantic reconstruction of egocentric scenes. EgoSplat achieves state-of-the-art performance in both localization and segmentation tasks on two datasets, outperforming existing methods with a 8.2% improvement in localization accuracy and a 3.7% improvement in segmentation mIoU on the ADT dataset, and setting a new benchmark in open-vocabulary egocentric scene understanding. The code will be made publicly available.