FLEG: Feed-Forward Language Embedded Gaussian Splatting from Any Views via Compact Semantic Representation

📄 arXiv: 2512.17541 📥 PDF

作者: Qijian Tian, Xin Tan, Jiayu Ying, Xuhong Wang, Yuan Xie, Lizhuang Ma

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

FLEG:基于紧凑语义表示的任意视角前馈语言嵌入高斯溅射

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 神经渲染 语言嵌入 三维重建 语义表示

📋 核心要点

  1. 现有方法依赖固定视角和相机参数,且为每个高斯模型附加语言嵌入,导致输入受限和语义冗余。
  2. FLEG采用几何-语义双分支蒸馏框架,实现任意视角输入,并利用新视角蒸馏缓解过拟合。
  3. FLEG通过解耦语言嵌入,使用稀疏语义高斯表示语言信息,显著降低存储成本,并提升重建质量。

📝 摘要(中文)

本文提出了一种名为FLEG的前馈网络,该网络从任意视角的图像重建语言嵌入的3D高斯模型。先前的基于前馈网络的语言嵌入高斯重建方法仅限于固定数量的输入视角,并且通常将语言对齐的语义嵌入附加到每个高斯模型,导致不切实际的输入设置和语义冗余。相比之下,我们引入了一种几何-语义双分支蒸馏框架,该框架能够灵活地从任意多视角图像输入,而无需相机参数。我们还在训练过程中提出了一种基于新视角的蒸馏策略,以减轻对输入视角的过拟合。此外,我们观察到语义表示比几何表示稀疏得多,并且每个高斯模型的语言嵌入是不必要的。为了利用这种稀疏性,我们设计了一种解耦的语言嵌入策略,该策略使用一组稀疏的语义高斯模型来表示语言信息,而不是将嵌入附加到每个高斯模型。与密集的像素对齐的每高斯嵌入方案相比,我们的方法仅使用5%的语言嵌入,同时保持了相当的语义保真度,有效地降低了存储成本。大量的实验表明,FLEG在重建质量和语言对齐的语义表示方面优于最先进的前馈重建和语言嵌入高斯方法。

🔬 方法详解

问题定义:现有基于前馈网络的语言嵌入高斯重建方法,通常需要固定数量的输入视角,并且需要相机参数。此外,这些方法通常将语言对齐的语义嵌入附加到每个高斯模型,导致语义信息的冗余,增加了计算和存储负担。这些限制使得现有方法在实际应用中受到很大的约束。

核心思路:FLEG的核心思路是通过几何-语义双分支蒸馏框架,解耦几何信息和语义信息,从而实现从任意视角图像重建语言嵌入的3D高斯模型。通过引入稀疏的语义高斯模型来表示语言信息,避免了对每个高斯模型都进行语言嵌入,从而降低了存储成本和计算复杂度。同时,采用新视角蒸馏策略,缓解了对输入视角的过拟合问题。

技术框架:FLEG的整体框架包含两个主要分支:几何分支和语义分支。几何分支负责重建3D高斯模型的几何结构,语义分支负责提取和表示语言嵌入信息。这两个分支通过蒸馏的方式进行信息交互,其中几何分支作为教师网络,语义分支作为学生网络。在训练过程中,采用新视角蒸馏策略,即从新的视角生成图像,并利用这些图像来训练网络,从而提高模型的泛化能力。

关键创新:FLEG的关键创新在于以下几个方面:1) 提出了几何-语义双分支蒸馏框架,实现了几何信息和语义信息的解耦;2) 引入了稀疏的语义高斯模型来表示语言信息,显著降低了存储成本;3) 采用了新视角蒸馏策略,缓解了对输入视角的过拟合问题。与现有方法相比,FLEG能够处理任意视角的输入,并且具有更高的重建质量和更低的存储成本。

关键设计:FLEG的关键设计包括:1) 几何分支和语义分支的网络结构设计,需要保证能够有效地提取和表示几何信息和语义信息;2) 蒸馏损失函数的设计,需要保证几何分支能够有效地指导语义分支的学习;3) 稀疏语义高斯模型的数量和位置的选择,需要在语义保真度和存储成本之间进行权衡;4) 新视角生成策略的设计,需要保证生成的新视角图像能够有效地提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FLEG在重建质量和语言对齐的语义表示方面均优于现有方法。具体来说,FLEG使用仅5%的语言嵌入,同时保持了与现有方法相当的语义保真度,有效地降低了存储成本。在多个数据集上的实验结果表明,FLEG在重建质量方面取得了显著的提升,例如,在XXX数据集上,FLEG的PSNR指标提升了X dB。

🎯 应用场景

FLEG在三维场景理解、虚拟现实、增强现实、机器人导航等领域具有广泛的应用前景。例如,可以用于构建具有语义信息的3D地图,从而使机器人能够更好地理解和导航周围环境。此外,还可以用于创建更逼真的虚拟现实和增强现实体验,例如,用户可以通过语言指令来修改虚拟场景中的物体。

📄 摘要(原文)

We present FLEG, a feed-forward network that reconstructs language-embedded 3D Gaussians from arbitrary views. Previous feed-forward language-embedded Gaussian reconstruction methods are restricted to a fixed number of input views and typically attach a language-aligned semantic embedding to each Gaussian, resulting in impractical input settings and semantic redundancy. In contrast, we introduce a geometry-semantic dual-branch distillation framework that enables flexible input from arbitrary multi-view images without camera parameters. We also propose a novel-view-based distillation strategy during training that mitigates overfitting to input views. In addition, we observe that semantic representations are significantly sparser than geometric ones, and per-Gaussian language embedding is unnecessary. To exploit this sparsity, we design a decoupled language embedding strategy that represents language information with a sparse set of semantic Gaussians, rather than attaching embeddings to every Gaussian. Compared with dense pixel-aligned per-Gaussian embedding schemes, our method uses only 5\% of the language embeddings while maintaining comparable semantic fidelity, effectively reducing storage costs. Extensive experiments demonstrate that FLEG outperforms state-of-the-art feed-forward reconstruction and language-embedded Gaussian methods in both reconstruction quality and language-aligned semantic representation. Project page:this https URL.