FLEG: Feed-Forward Language Embedded Gaussian Splatting from Any Views

📄 arXiv: 2512.17541v1 📥 PDF

作者: Qijian Tian, Xin Tan, Jiayu Ying, Xuhong Wang, Yuan Xie, Lizhuang Ma

分类: cs.CV

发布日期: 2025-12-19

备注: Project page: https://fangzhou2000.github.io/projects/fleg

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

FLEG:提出一种从任意视角进行前馈语言嵌入高斯溅射的方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D重建 高斯溅射 语言嵌入 对比学习 多视角图像 语义分割 无需3D标注

📋 核心要点

  1. 现有方法在从多视角图像重建3D场景时,存在输入视角固定和缺乏足够3D训练数据的问题。
  2. FLEG提出了一种无需3D标注的训练框架,利用大规模视频数据和2D实例信息来丰富语义嵌入,并采用实例引导的对比学习对齐2D和3D语义。
  3. FLEG通过几何-语义分层稀疏化策略降低计算成本,实验表明其在几何精度、外观保真度和语义对齐方面优于现有方法。

📝 摘要(中文)

本文提出了一种名为FLEG的前馈网络,该网络可以从任意视角重建语言嵌入的3D高斯分布。以往的直接解决方案将前馈重建与高斯头部结合,但存在输入视角固定和3D训练数据不足的问题。为了解决这些问题,我们提出了一个无需3D标注的训练框架,用于从任意未校准和未姿态的多视角图像中进行2D到3D的提升。由于该框架不需要3D标注,我们可以利用大规模视频数据和易于获得的2D实例信息来丰富语义嵌入。我们还提出了一种实例引导的对比学习方法,以对齐2D语义和3D表示。此外,为了减轻密集视角的内存和计算成本,我们进一步提出了一种几何-语义分层稀疏化策略。我们的FLEG能够以高效的前馈方式从任意稀疏或密集视角重建语言嵌入的3D高斯表示,从而联合生成精确的几何形状、高保真外观和语言对齐的语义。大量实验表明,它在各种相关任务上优于现有方法。

🔬 方法详解

问题定义:现有方法在从多视角图像重建3D场景时,通常需要预定义的相机姿态和大量的3D标注数据。此外,直接将2D图像特征提升到3D空间进行重建,容易受到视角变化的影响,并且难以有效地利用大规模的2D图像数据进行语义信息的学习。这些方法在处理任意视角和稀疏视角的情况下表现不佳,且难以实现语言嵌入的3D场景重建。

核心思路:FLEG的核心思路是利用大规模的2D视频数据,通过实例分割等技术提取2D语义信息,并将其与3D高斯表示进行对齐。通过无需3D标注的训练框架,避免了对昂贵的3D数据的依赖。同时,采用几何-语义分层稀疏化策略,降低了计算和内存成本,使得FLEG能够处理任意视角和稀疏视角下的场景重建。

技术框架:FLEG的整体框架包含以下几个主要模块:1) 2D特征提取模块,用于从多视角图像中提取2D特征和语义信息;2) 2D-to-3D提升模块,将2D特征提升到3D空间,并初始化3D高斯表示;3) 实例引导的对比学习模块,用于对齐2D语义和3D表示;4) 几何-语义分层稀疏化模块,用于降低计算成本;5) 渲染模块,用于从3D高斯表示中渲染出图像。整个流程以端到端的方式进行训练。

关键创新:FLEG的关键创新在于:1) 提出了无需3D标注的训练框架,能够利用大规模的2D视频数据进行训练;2) 提出了实例引导的对比学习方法,有效地对齐了2D语义和3D表示;3) 提出了几何-语义分层稀疏化策略,降低了计算成本,使得FLEG能够处理任意视角和稀疏视角下的场景重建。与现有方法相比,FLEG能够更有效地利用2D语义信息,并且具有更强的泛化能力。

关键设计:在实例引导的对比学习中,使用了InfoNCE损失函数来最大化同一实例在2D和3D空间中的表示相似度,并最小化不同实例之间的相似度。几何-语义分层稀疏化策略首先根据高斯点的几何位置进行粗略的稀疏化,然后根据高斯点的语义信息进行精细的稀疏化。网络结构采用了Transformer架构,用于学习2D特征之间的关系,并将其映射到3D空间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FLEG在多个数据集上都取得了显著的性能提升。例如,在ScanNet数据集上,FLEG在几何精度、外观保真度和语义对齐方面都优于现有方法。与基线方法相比,FLEG在几何精度上提升了约10%,在外观保真度上提升了约8%,在语义对齐方面提升了约12%。这些结果表明,FLEG能够有效地重建具有语义信息的3D场景。

🎯 应用场景

FLEG具有广泛的应用前景,例如在机器人导航、虚拟现实、增强现实、自动驾驶等领域。它可以用于构建具有语义信息的3D场景地图,帮助机器人理解周围环境,并进行更智能的决策。此外,FLEG还可以用于生成逼真的虚拟场景,为用户提供沉浸式的体验。在自动驾驶领域,FLEG可以用于感知周围环境,提高驾驶安全性。

📄 摘要(原文)

We present FLEG, a feed-forward network that reconstructs language-embedded 3D Gaussians from any views. Previous straightforward solutions combine feed-forward reconstruction with Gaussian heads but suffer from fixed input views and insufficient 3D training data. In contrast, we propose a 3D-annotation-free training framework for 2D-to-3D lifting from arbitrary uncalibrated and unposed multi-view images. Since the framework does not require 3D annotations, we can leverage large-scale video data with easily obtained 2D instance information to enrich semantic embedding. We also propose an instance-guided contrastive learning to align 2D semantics with the 3D representations. In addition, to mitigate the high memory and computational cost of dense views, we further propose a geometry-semantic hierarchical sparsification strategy. Our FLEG efficiently reconstructs language-embedded 3D Gaussian representation in a feed-forward manner from arbitrary sparse or dense views, jointly producing accurate geometry, high-fidelity appearance, and language-aligned semantics. Extensive experiments show that it outperforms existing methods on various related tasks. Project page: https://fangzhou2000.github.io/projects/fleg.