FLEG: Feed-Forward Language Embedded Gaussian Splatting from Any Views

作者: Qijian Tian, Xin Tan, Jiayu Ying, Xuhong Wang, Yuan Xie, Lizhuang Ma

分类: cs.CV

发布日期: 2025-12-19

备注: Project page: https://fangzhou2000.github.io/projects/fleg

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

FLEG：提出一种从任意视角进行前馈语言嵌入高斯溅射重建的方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D重建 高斯溅射 语言嵌入 多视角学习 对比学习

📋 核心要点

现有方法在从多视角图像重建3D场景时，存在输入视角固定和缺乏足够3D训练数据的问题。
FLEG提出了一种无需3D标注的训练框架，利用大规模视频数据和2D实例信息来丰富语义嵌入，并采用实例引导的对比学习对齐2D和3D语义。
FLEG通过几何-语义分层稀疏化策略缓解了密集视角带来的高内存和计算成本，并在实验中表现出优于现有方法的性能。

📝 摘要（中文）

本文提出了一种名为FLEG的前馈网络，用于从任意视角重建语言嵌入的3D高斯模型。以往直接将前馈重建与高斯头部结合的方法，存在输入视角固定和3D训练数据不足的问题。为了解决这些问题，我们提出了一个无需3D标注的训练框架，用于从任意未校准和未姿态的多视角图像中进行2D到3D的提升。由于该框架不需要3D标注，我们可以利用大规模视频数据和易于获得的2D实例信息来丰富语义嵌入。我们还提出了一种实例引导的对比学习方法，以对齐2D语义与3D表示。此外，为了缓解密集视角带来的高内存和计算成本，我们进一步提出了一种几何-语义分层稀疏化策略。我们的FLEG能够以一种前馈的方式，从任意稀疏或密集的视角高效地重建语言嵌入的3D高斯表示，从而联合生成精确的几何结构、高保真度的外观和语言对齐的语义信息。大量的实验表明，该方法在各种相关任务上都优于现有方法。

🔬 方法详解

问题定义：现有方法在从多视角图像重建3D场景时，通常需要预定义的相机姿态或大量的3D标注数据。直接将前馈网络与高斯头部结合的方法，容易受到固定输入视角的限制，并且难以利用大规模的2D图像数据进行语义信息的增强。此外，密集的多视角图像会导致巨大的内存和计算开销。

核心思路：FLEG的核心思路是利用大规模的无标注视频数据，通过2D实例信息来引导3D场景的重建和语义嵌入。通过实例引导的对比学习，将2D语义信息迁移到3D表示中，从而提高3D场景的语义理解能力。同时，采用几何-语义分层稀疏化策略，减少计算量和内存占用，实现高效的3D重建。

技术框架：FLEG的整体框架包括以下几个主要模块：1) 多视角图像特征提取模块，用于提取每个视角的图像特征；2) 2D实例分割模块，用于提取图像中的2D实例信息；3) 3D高斯重建模块，用于从多视角图像特征中重建3D高斯表示；4) 语言嵌入模块，用于将语言描述嵌入到3D高斯表示中；5) 实例引导的对比学习模块，用于对齐2D语义和3D表示；6) 几何-语义分层稀疏化模块，用于减少计算量和内存占用。

关键创新：FLEG的关键创新在于：1) 提出了一个无需3D标注的训练框架，可以利用大规模的视频数据进行训练；2) 提出了实例引导的对比学习方法，有效地将2D语义信息迁移到3D表示中；3) 提出了几何-语义分层稀疏化策略，显著降低了计算量和内存占用。与现有方法相比，FLEG能够从任意视角高效地重建语言嵌入的3D高斯表示，并且具有更强的语义理解能力。

关键设计：实例引导的对比学习损失函数旨在拉近同一实例在2D和3D空间中的表示，并推远不同实例的表示。几何-语义分层稀疏化策略首先基于几何信息进行粗略的稀疏化，然后基于语义信息进行精细的稀疏化。具体的网络结构和参数设置在论文中有详细描述，例如特征提取网络采用ResNet，高斯重建模块采用MLP等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FLEG在多个数据集上都取得了优于现有方法的性能。例如，在场景重建任务中，FLEG的重建精度和完整性都得到了显著提升。在语义理解任务中，FLEG能够更准确地识别场景中的物体和关系。此外，FLEG的运行效率也得到了显著提升，能够处理更大规模的场景。

🎯 应用场景

FLEG具有广泛的应用前景，例如在机器人导航、虚拟现实、增强现实、自动驾驶等领域。它可以用于构建具有语义信息的3D场景地图，从而提高机器人的环境感知能力和交互能力。此外，FLEG还可以用于生成逼真的虚拟场景，为用户提供沉浸式的体验。在自动驾驶领域，FLEG可以用于理解复杂的交通场景，提高驾驶安全性。

📄 摘要（原文）

We present FLEG, a feed-forward network that reconstructs language-embedded 3D Gaussians from any views. Previous straightforward solutions combine feed-forward reconstruction with Gaussian heads but suffer from fixed input views and insufficient 3D training data. In contrast, we propose a 3D-annotation-free training framework for 2D-to-3D lifting from arbitrary uncalibrated and unposed multi-view images. Since the framework does not require 3D annotations, we can leverage large-scale video data with easily obtained 2D instance information to enrich semantic embedding. We also propose an instance-guided contrastive learning to align 2D semantics with the 3D representations. In addition, to mitigate the high memory and computational cost of dense views, we further propose a geometry-semantic hierarchical sparsification strategy. Our FLEG efficiently reconstructs language-embedded 3D Gaussian representation in a feed-forward manner from arbitrary sparse or dense views, jointly producing accurate geometry, high-fidelity appearance, and language-aligned semantics. Extensive experiments show that it outperforms existing methods on various related tasks. Project page: https://fangzhou2000.github.io/projects/fleg.

FLEG: Feed-Forward Language Embedded Gaussian Splatting from Any Views

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理