EcoSplat: Efficiency-controllable Feed-forward 3D Gaussian Splatting from Multi-view Images

📄 arXiv: 2512.18692v1 📥 PDF

作者: Jongmin Park, Minh-Quan Viet Bui, Juan Luis Gonzalez Bello, Jaeho Moon, Jihyong Oh, Munchurl Kim

分类: cs.CV

发布日期: 2025-12-21

备注: The first two authors contributed equally to this work (equal contribution). The last two authors advised equally to this work. Please visit our project page at https://kaist-viclab.github.io/ecosplat-site/


💡 一句话要点

EcoSplat:一种效率可控的单次前向3D高斯溅射重建方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 前向神经网络 多视角重建 效率控制 神经渲染

📋 核心要点

  1. 现有前向3D高斯溅射方法在密集视图下生成过多图元,且缺乏对图元数量的有效控制。
  2. EcoSplat通过两阶段训练,实现对3D高斯图元数量的自适应控制,提升重建效率。
  3. 实验表明,EcoSplat在图元数量受限的情况下,性能优于现有方法,更适合灵活的渲染任务。

📝 摘要(中文)

本文提出EcoSplat,一种效率可控的前向3D高斯溅射(3DGS)框架,它能够在推理时自适应地预测任意给定目标图元数量的3D表示。现有方法通常逐视图预测像素对齐的图元,在密集视图设置中产生过多的图元,并且无法显式控制预测的高斯数量。EcoSplat采用两阶段优化过程。第一阶段是像素对齐高斯训练(PGT),模型学习初始图元预测。第二阶段是重要性感知高斯微调(IGF),模型学习对图元进行排序,并根据目标图元数量自适应地调整其参数。在多个密集视图设置下的大量实验表明,EcoSplat在严格的图元数量约束下表现稳健,优于最先进的方法,非常适合灵活的下游渲染任务。

🔬 方法详解

问题定义:现有基于前向神经网络的3D高斯溅射方法,在多视角图像重建场景中,特别是密集视图情况下,会生成大量的冗余高斯图元,导致计算效率低下。此外,现有方法缺乏对生成高斯图元数量的有效控制,难以适应不同资源约束下的渲染需求。

核心思路:EcoSplat的核心思路是通过两阶段训练,首先学习一个初始的图元预测,然后学习如何根据重要性对图元进行排序,并根据目标图元数量自适应地调整图元的参数。这样可以在保证重建质量的前提下,有效控制图元的数量,提高渲染效率。

技术框架:EcoSplat包含两个主要阶段:Pixel-aligned Gaussian Training (PGT) 和 Importance-aware Gaussian Finetuning (IGF)。PGT阶段,模型学习从多视角图像中预测初始的3D高斯图元参数。IGF阶段,模型学习对图元的重要性进行排序,并根据预设的目标图元数量,自适应地调整图元的参数,例如位置、缩放和不透明度。

关键创新:EcoSplat的关键创新在于引入了重要性感知的图元微调机制。通过学习对图元进行排序,并根据目标图元数量进行筛选和调整,EcoSplat能够有效地控制图元的数量,同时保持重建质量。这与现有方法中直接预测大量图元,然后进行后处理的方式有本质区别。

关键设计:PGT阶段使用像素对齐的特征提取网络,从多视角图像中提取特征,并预测初始的3D高斯图元参数。IGF阶段使用一个排序损失函数,鼓励模型学习对图元的重要性进行排序。此外,IGF阶段还使用一个自适应的参数调整机制,根据目标图元数量,对图元的参数进行微调,以优化重建质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EcoSplat在多个密集视图数据集上优于现有的前向3D高斯溅射方法。在相同的图元数量约束下,EcoSplat能够实现更高的重建质量和更快的渲染速度。例如,在某个数据集上,EcoSplat在图元数量减少50%的情况下,仍然能够保持与现有方法相当的重建质量。

🎯 应用场景

EcoSplat适用于各种需要高效3D重建和渲染的场景,例如移动设备的实时渲染、虚拟现实/增强现实应用、机器人导航和场景理解等。其效率可控的特性使其能够适应不同的计算资源约束,并为下游任务提供灵活的3D表示。

📄 摘要(原文)

Feed-forward 3D Gaussian Splatting (3DGS) enables efficient one-pass scene reconstruction, providing 3D representations for novel view synthesis without per-scene optimization. However, existing methods typically predict pixel-aligned primitives per-view, producing an excessive number of primitives in dense-view settings and offering no explicit control over the number of predicted Gaussians. To address this, we propose EcoSplat, the first efficiency-controllable feed-forward 3DGS framework that adaptively predicts the 3D representation for any given target primitive count at inference time. EcoSplat adopts a two-stage optimization process. The first stage is Pixel-aligned Gaussian Training (PGT) where our model learns initial primitive prediction. The second stage is Importance-aware Gaussian Finetuning (IGF) stage where our model learns rank primitives and adaptively adjust their parameters based on the target primitive count. Extensive experiments across multiple dense-view settings show that EcoSplat is robust and outperforms state-of-the-art methods under strict primitive-count constraints, making it well-suited for flexible downstream rendering tasks.