FLEG: Feed-Forward Language Embedded Gaussian Splatting from Any Views
作者: Qijian Tian, Xin Tan, Jiayu Ying, Xuhong Wang, Yuan Xie, Lizhuang Ma
分类: cs.CV
发布日期: 2025-12-19
备注: Project page: https://fangzhou2000.github.io/projects/fleg
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
FLEG:提出一种从任意视角进行前馈语言嵌入高斯溅射重建的方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D重建 高斯溅射 语言嵌入 多视角学习 对比学习
📋 核心要点
- 现有方法在从多视角图像重建3D场景时,存在输入视角固定和缺乏足够3D训练数据的问题。
- FLEG提出了一种无需3D标注的训练框架,利用大规模视频数据和2D实例信息来丰富语义嵌入,并采用实例引导的对比学习对齐2D和3D语义。
- FLEG通过几何-语义分层稀疏化策略缓解了密集视角带来的高内存和计算成本,并在实验中表现出优于现有方法的性能。
📝 摘要(中文)
本文提出了一种名为FLEG的前馈网络,用于从任意视角重建语言嵌入的3D高斯模型。以往直接将前馈重建与高斯头部结合的方法,存在输入视角固定和3D训练数据不足的问题。为了解决这些问题,我们提出了一个无需3D标注的训练框架,用于从任意未校准和未姿态的多视角图像中进行2D到3D的提升。由于该框架不需要3D标注,我们可以利用大规模视频数据和易于获得的2D实例信息来丰富语义嵌入。我们还提出了一种实例引导的对比学习方法,以对齐2D语义与3D表示。此外,为了缓解密集视角带来的高内存和计算成本,我们进一步提出了一种几何-语义分层稀疏化策略。我们的FLEG能够以一种前馈的方式,从任意稀疏或密集的视角高效地重建语言嵌入的3D高斯表示,从而联合生成精确的几何结构、高保真度的外观和语言对齐的语义信息。大量的实验表明,该方法在各种相关任务上都优于现有方法。
🔬 方法详解
问题定义:现有方法在从多视角图像重建3D场景时,通常需要预定义的相机姿态或大量的3D标注数据。直接将前馈网络与高斯头部结合的方法,容易受到固定输入视角的限制,并且难以利用大规模的2D图像数据进行语义信息的增强。此外,密集的多视角图像会导致巨大的内存和计算开销。
核心思路:FLEG的核心思路是利用大规模的无标注视频数据,通过2D实例信息来引导3D场景的重建和语义嵌入。通过实例引导的对比学习,将2D语义信息迁移到3D表示中,从而提高3D场景的语义理解能力。同时,采用几何-语义分层稀疏化策略,减少计算量和内存占用,实现高效的3D重建。
技术框架:FLEG的整体框架包括以下几个主要模块:1) 多视角图像特征提取模块,用于提取每个视角的图像特征;2) 2D实例分割模块,用于提取图像中的2D实例信息;3) 3D高斯重建模块,用于从多视角图像特征中重建3D高斯表示;4) 语言嵌入模块,用于将语言描述嵌入到3D高斯表示中;5) 实例引导的对比学习模块,用于对齐2D语义和3D表示;6) 几何-语义分层稀疏化模块,用于减少计算量和内存占用。
关键创新:FLEG的关键创新在于:1) 提出了一个无需3D标注的训练框架,可以利用大规模的视频数据进行训练;2) 提出了实例引导的对比学习方法,有效地将2D语义信息迁移到3D表示中;3) 提出了几何-语义分层稀疏化策略,显著降低了计算量和内存占用。与现有方法相比,FLEG能够从任意视角高效地重建语言嵌入的3D高斯表示,并且具有更强的语义理解能力。
关键设计:实例引导的对比学习损失函数旨在拉近同一实例在2D和3D空间中的表示,并推远不同实例的表示。几何-语义分层稀疏化策略首先基于几何信息进行粗略的稀疏化,然后基于语义信息进行精细的稀疏化。具体的网络结构和参数设置在论文中有详细描述,例如特征提取网络采用ResNet,高斯重建模块采用MLP等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FLEG在多个数据集上都取得了优于现有方法的性能。例如,在场景重建任务中,FLEG的重建精度和完整性都得到了显著提升。在语义理解任务中,FLEG能够更准确地识别场景中的物体和关系。此外,FLEG的运行效率也得到了显著提升,能够处理更大规模的场景。
🎯 应用场景
FLEG具有广泛的应用前景,例如在机器人导航、虚拟现实、增强现实、自动驾驶等领域。它可以用于构建具有语义信息的3D场景地图,从而提高机器人的环境感知能力和交互能力。此外,FLEG还可以用于生成逼真的虚拟场景,为用户提供沉浸式的体验。在自动驾驶领域,FLEG可以用于理解复杂的交通场景,提高驾驶安全性。
📄 摘要(原文)
We present FLEG, a feed-forward network that reconstructs language-embedded 3D Gaussians from any views. Previous straightforward solutions combine feed-forward reconstruction with Gaussian heads but suffer from fixed input views and insufficient 3D training data. In contrast, we propose a 3D-annotation-free training framework for 2D-to-3D lifting from arbitrary uncalibrated and unposed multi-view images. Since the framework does not require 3D annotations, we can leverage large-scale video data with easily obtained 2D instance information to enrich semantic embedding. We also propose an instance-guided contrastive learning to align 2D semantics with the 3D representations. In addition, to mitigate the high memory and computational cost of dense views, we further propose a geometry-semantic hierarchical sparsification strategy. Our FLEG efficiently reconstructs language-embedded 3D Gaussian representation in a feed-forward manner from arbitrary sparse or dense views, jointly producing accurate geometry, high-fidelity appearance, and language-aligned semantics. Extensive experiments show that it outperforms existing methods on various related tasks. Project page: https://fangzhou2000.github.io/projects/fleg.