CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting

📄 arXiv: 2505.20469v2 📥 PDF

作者: Lei Tian, Xiaomin Li, Liqian Ma, Hao Yin, Zirui Zheng, Hefei Huang, Taiqing Li, Huchuan Lu, Xu Jia

分类: cs.CV, cs.AI

发布日期: 2025-05-26 (更新: 2025-08-14)

备注: ICCV 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出CCL-LGS,通过对比码本学习解决3D语言高斯溅射中的跨视角语义不一致问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D语义理解 高斯溅射 对比学习 跨视角一致性 视觉语言模型

📋 核心要点

  1. 现有方法在3D语言高斯溅射中,受限于跨视角语义不一致,导致渲染质量下降。
  2. CCL-LGS通过对比码本学习,整合多视角语义线索,强制视角一致的语义监督。
  3. 实验结果表明,CCL-LGS显著优于现有方法,提升了3D语义理解的性能。

📝 摘要(中文)

三维重建技术和视觉-语言模型的最新进展极大地推动了三维语义理解的发展,这对机器人、自动驾驶和虚拟/增强现实至关重要。然而,依赖于二维先验的方法容易出现一个关键挑战:由遮挡、图像模糊和视角相关的变化引起的跨视角语义不一致性。当这些不一致性通过投影监督传播时,会降低三维高斯语义场的质量,并在渲染输出中引入伪影。为了缓解这一限制,我们提出了CCL-LGS,这是一个通过整合多视角语义线索来强制视角一致语义监督的新框架。具体来说,我们的方法首先采用零样本跟踪器来对齐一组SAM生成的二维掩码,并可靠地识别它们对应的类别。接下来,我们利用CLIP提取跨视角的鲁棒语义编码。最后,我们的对比码本学习(CCL)模块通过强制类内紧凑性和类间区分性来提取判别性语义特征。与之前直接将CLIP应用于不完善掩码的方法不同,我们的框架明确地解决了语义冲突,同时保留了类别区分能力。大量的实验表明,CCL-LGS优于之前的最先进方法。

🔬 方法详解

问题定义:现有3D语言高斯溅射方法依赖于2D先验,容易受到跨视角语义不一致的影响。这种不一致性源于遮挡、图像模糊和视角变化,导致生成的3D语义场质量下降,渲染结果出现伪影。现有方法直接将CLIP应用于不完善的2D掩码,无法有效解决这些语义冲突。

核心思路:CCL-LGS的核心思路是通过对比码本学习(CCL)来解决跨视角语义不一致问题。该方法旨在提取具有判别性的语义特征,同时强制类内紧凑性和类间区分性。通过这种方式,CCL-LGS能够更好地整合多视角信息,生成更准确、更鲁棒的3D语义表示。

技术框架:CCL-LGS的整体框架包含以下几个主要模块:1) 零样本跟踪器:用于对齐多视角的SAM生成的2D掩码,并识别其类别。2) CLIP编码器:用于提取跨视角的鲁棒语义编码。3) 对比码本学习(CCL)模块:通过对比学习,提取判别性语义特征,强制类内紧凑性和类间区分性。整个流程首先利用零样本跟踪器对齐掩码,然后使用CLIP提取语义编码,最后通过CCL模块进行特征提炼和优化。

关键创新:CCL-LGS的关键创新在于对比码本学习(CCL)模块。与直接使用CLIP的方法不同,CCL模块通过对比学习的方式,显式地解决了跨视角语义冲突,同时保留了类别区分能力。这种方法能够更有效地利用多视角信息,生成更准确的3D语义表示。

关键设计:CCL模块的关键设计包括:1) 码本构建:为每个类别构建一个码本,用于存储该类别的典型语义特征。2) 对比损失:设计对比损失函数,鼓励类内特征靠近对应的码本,类间特征远离彼此。3) 动态码本更新:采用动态更新策略,根据新的数据不断优化码本。具体的损失函数和网络结构细节在论文中有详细描述,例如如何平衡类内紧凑性和类间区分性,以及如何选择合适的对比学习策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CCL-LGS在多个数据集上取得了显著的性能提升,超越了现有的最先进方法。实验结果表明,CCL-LGS能够有效缓解跨视角语义不一致问题,生成更准确、更鲁棒的3D语义表示。具体的性能数据和对比基线可以在论文的实验部分找到,例如在特定数据集上的指标提升幅度。

🎯 应用场景

CCL-LGS在机器人、自动驾驶和虚拟/增强现实等领域具有广泛的应用前景。它可以用于改进3D场景理解、目标识别和语义分割等任务,从而提高机器人的环境感知能力、自动驾驶系统的安全性和虚拟/增强现实的沉浸感。该研究的成果有助于推动这些领域的发展,并为未来的智能系统提供更强大的语义理解能力。

📄 摘要(原文)

Recent advances in 3D reconstruction techniques and vision-language models have fueled significant progress in 3D semantic understanding, a capability critical to robotics, autonomous driving, and virtual/augmented reality. However, methods that rely on 2D priors are prone to a critical challenge: cross-view semantic inconsistencies induced by occlusion, image blur, and view-dependent variations. These inconsistencies, when propagated via projection supervision, deteriorate the quality of 3D Gaussian semantic fields and introduce artifacts in the rendered outputs. To mitigate this limitation, we propose CCL-LGS, a novel framework that enforces view-consistent semantic supervision by integrating multi-view semantic cues. Specifically, our approach first employs a zero-shot tracker to align a set of SAM-generated 2D masks and reliably identify their corresponding categories. Next, we utilize CLIP to extract robust semantic encodings across views. Finally, our Contrastive Codebook Learning (CCL) module distills discriminative semantic features by enforcing intra-class compactness and inter-class distinctiveness. In contrast to previous methods that directly apply CLIP to imperfect masks, our framework explicitly resolves semantic conflicts while preserving category discriminability. Extensive experiments demonstrate that CCL-LGS outperforms previous state-of-the-art methods. Our project page is available at https://epsilontl.github.io/CCL-LGS/.