Chorus: Multi-Teacher Pretraining for Holistic 3D Gaussian Scene Encoding

📄 arXiv: 2512.17817v2 📥 PDF

作者: Yue Li, Qi Ma, Runyi Yang, Mengjiao Ma, Bin Ren, Nikola Popovic, Nicu Sebe, Theo Gevers, Luc Van Gool, Danda Pani Paudel, Martin R. Oswald

分类: cs.CV

发布日期: 2025-12-19 (更新: 2025-12-22)


💡 一句话要点

提出Chorus,通过多教师预训练实现3D高斯场景的整体编码。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D高斯溅射 多教师学习 预训练 知识蒸馏 场景编码 三维视觉 开放词汇分割

📋 核心要点

  1. 现有方法缺乏直接从3DGS图元编码丰富的、通用特征的能力,限制了其应用。
  2. Chorus通过多教师预训练框架,从2D基础模型提炼知识,学习3DGS场景的整体编码。
  3. 实验表明,Chorus在多种任务上表现出色,且在数据效率和跨域迁移方面具有优势。

📝 摘要(中文)

本文提出Chorus,一个多教师预训练框架,旨在学习一个整体的前馈3D高斯溅射(3DGS)场景编码器,通过从2D基础模型中提炼互补信号。Chorus采用共享的3D编码器和教师特定的投影器,从语言对齐、通用和对象感知的教师模型中学习,鼓励一个共享的嵌入空间,该空间捕获从高层语义到细粒度结构的信号。我们在广泛的任务中评估Chorus:开放词汇语义和实例分割、线性探测和解码器探测,以及数据高效的监督。除了3DGS,我们还通过预训练一个仅使用高斯中心、颜色、估计法线作为输入的变体,在几个仅支持点云的基准上测试Chorus。有趣的是,这个编码器显示出强大的迁移能力,并且优于点云基线,同时使用少39.9倍的训练场景。最后,我们提出了一种渲染和提炼的适应方法,以促进领域外的微调。我们的代码和模型将在发布后公开。

🔬 方法详解

问题定义:现有的3D高斯场景表示方法,虽然在高质量场景重建方面表现出色,但在直接从其图元中编码丰富的、通用特征方面仍有不足。这限制了3DGS在更广泛任务中的应用,例如语义理解和场景编辑。现有方法难以有效利用2D基础模型中蕴含的丰富知识。

核心思路:Chorus的核心思路是利用多教师预训练框架,将2D基础模型中的知识迁移到3DGS场景编码器中。通过从多个具有互补优势的2D教师模型(如语言对齐模型、通用模型和对象感知模型)中提炼知识,Chorus能够学习到更全面、更鲁棒的3D场景表示。

技术框架:Chorus框架包含一个共享的3D编码器和多个教师特定的投影器。3D编码器负责将3DGS图元(如高斯中心、颜色、法线等)编码成统一的嵌入向量。每个教师模型对应一个投影器,负责将教师模型的输出映射到与3D编码器输出相同的嵌入空间。训练过程中,通过最小化3D编码器输出与教师模型投影输出之间的差异,实现知识蒸馏。

关键创新:Chorus的关键创新在于其多教师预训练策略。通过整合来自不同类型2D模型的知识,Chorus能够学习到更具泛化能力的3D场景表示。此外,Chorus还提出了一种渲染和提炼的适应方法,用于促进领域外的微调,增强模型的跨域适应性。

关键设计:Chorus使用共享的3D编码器,保证了不同教师模型学习到的知识能够有效融合。损失函数的设计至关重要,需要平衡不同教师模型的影响,并确保学习到的嵌入空间具有良好的结构。渲染和提炼的适应方法通过将3D场景渲染成2D图像,然后利用2D教师模型进行知识提炼,实现了跨模态的知识迁移。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Chorus在开放词汇语义和实例分割任务上取得了显著成果。在仅使用高斯中心、颜色和法线作为输入的情况下,Chorus预训练的编码器在点云基准测试中优于点云基线,同时使用的训练场景数量减少了39.9倍。渲染和提炼的适应方法也有效提升了模型在领域外的微调性能。

🎯 应用场景

Chorus具有广泛的应用前景,包括但不限于:三维场景理解、机器人导航、增强现实、虚拟现实、自动驾驶等。通过学习通用的3D场景表示,Chorus可以为这些应用提供更强大的感知能力,并促进相关技术的发展。未来,Chorus有望成为三维视觉领域的重要基础模型。

📄 摘要(原文)

While 3DGS has emerged as a high-fidelity scene representation, encoding rich, general-purpose features directly from its primitives remains under-explored. We address this gap by introducing Chorus, a multi-teacher pretraining framework that learns a holistic feed-forward 3D Gaussian Splatting (3DGS) scene encoder by distilling complementary signals from 2D foundation models. Chorus employs a shared 3D encoder and teacher-specific projectors to learn from language-aligned, generalist, and object-aware teachers, encouraging a shared embedding space that captures signals from high-level semantics to fine-grained structure. We evaluate Chorus on a wide range of tasks: open-vocabulary semantic and instance segmentation, linear and decoder probing, as well as data-efficient supervision. Besides 3DGS, we also test Chorus on several benchmarks that only support point clouds by pretraining a variant using only Gaussians' centers, colors, estimated normals as inputs. Interestingly, this encoder shows strong transfer and outperforms the point clouds baseline while using 39.9 times fewer training scenes. Finally, we propose a render-and-distill adaptation that facilitates out-of-domain finetuning. Our code and model will be released upon publication.