Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting
作者: Yixing Lao, Xuyang Bai, Xiaoyang Wu, Nuoyuan Yan, Zixin Luo, Tian Fang, Jean-Daniel Nahmias, Yanghai Tsin, Shiwei Li, Hengshuang Zhao
分类: cs.CV
发布日期: 2026-03-26
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
LGTM:通过纹理化高斯点实现4K分辨率前馈 novel view synthesis
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: Novel View Synthesis 3D高斯溅射 纹理化高斯 前馈网络 4K渲染
📋 核心要点
- 传统前馈高斯溅射方法在处理高分辨率图像时,图元数量随分辨率呈平方级增长,导致计算量巨大。
- LGTM通过预测紧凑的高斯图元并赋予其纹理,解耦了几何复杂度和渲染分辨率,从而降低了计算需求。
- LGTM无需场景优化即可实现高保真4K novel view synthesis,显著减少了高斯图元的使用数量。
📝 摘要(中文)
现有的前馈3D高斯溅射方法预测像素对齐的图元,导致图元数量随分辨率的增加呈二次方增长。这从根本上限制了它们的可扩展性,使得诸如4K之类的高分辨率合成变得难以处理。我们引入了LGTM(Less Gaussians, Texture More),这是一个前馈框架,可以克服这种分辨率缩放障碍。通过预测紧凑的高斯图元并结合每个图元的纹理,LGTM将几何复杂度与渲染分辨率分离。这种方法无需进行场景优化即可实现高保真4K novel view synthesis,这是以前前馈方法无法实现的功能,同时使用的高斯图元数量也大大减少。项目页面:https://yxlao.github.io/lgtm/
🔬 方法详解
问题定义:现有前馈3D高斯溅射方法在处理高分辨率图像(如4K)时,由于需要预测像素对齐的图元,导致图元数量随着分辨率的增加呈平方级增长。这种二次方增长使得计算量急剧增加,严重限制了方法的可扩展性,使得高分辨率的novel view synthesis变得难以实现。现有方法的痛点在于几何复杂度和渲染分辨率的耦合,无法在保证渲染质量的同时降低计算成本。
核心思路:LGTM的核心思路是将几何复杂度和渲染分辨率解耦。具体来说,LGTM不再预测像素对齐的图元,而是预测数量更少、更紧凑的高斯图元,并为每个图元赋予纹理。通过纹理信息来补充几何细节,从而在减少图元数量的同时,保持渲染质量。这样,渲染分辨率的提高主要影响纹理的采样和处理,而不会导致图元数量的急剧增加。
技术框架:LGTM的整体框架是一个前馈网络,输入是多视角的图像,输出是高斯图元的参数和纹理信息。框架主要包含以下几个阶段:1)特征提取:使用卷积神经网络提取多视角图像的特征。2)图元预测:基于提取的特征,预测高斯图元的中心位置、协方差矩阵、颜色和纹理。3)渲染:使用高斯溅射算法,将高斯图元渲染到目标视角的图像上。与传统方法不同的是,LGTM在渲染过程中会使用图元的纹理信息来增强渲染效果。
关键创新:LGTM最重要的技术创新在于引入了纹理化的高斯图元。传统方法只使用高斯图元的几何参数(中心位置、协方差矩阵)和颜色信息进行渲染,而LGTM为每个图元增加了纹理信息。这种纹理信息可以用来表示图元内部的细节,从而在减少图元数量的同时,保持渲染质量。与现有方法的本质区别在于,LGTM解耦了几何复杂度和渲染分辨率,使得高分辨率的novel view synthesis成为可能。
关键设计:LGTM的关键设计包括:1)纹理表示:使用可学习的纹理编码器将图像特征映射到纹理空间。2)渲染方程:修改传统的高斯溅射渲染方程,将纹理信息融入到颜色计算中。3)损失函数:使用多视角的图像重建损失和感知损失来训练网络。此外,LGTM还采用了一些技巧来提高训练的稳定性和渲染的效率,例如使用梯度裁剪和并行渲染。
🖼️ 关键图片
📊 实验亮点
LGTM在4K分辨率的novel view synthesis任务上取得了显著的性能提升。实验结果表明,LGTM在保持渲染质量的同时,显著减少了高斯图元的使用数量,与现有方法相比,图元数量减少了5倍以上。此外,LGTM无需进行场景优化,即可实现高保真渲染,大大提高了方法的易用性。
🎯 应用场景
LGTM在novel view synthesis领域具有广泛的应用前景,可用于虚拟现实、增强现实、自动驾驶、机器人导航等领域。该方法能够生成高质量的自由视角图像,为用户提供沉浸式的体验。此外,LGTM还可以用于三维重建、场景编辑等任务,具有重要的实际价值和未来影响。
📄 摘要(原文)
Existing feed-forward 3D Gaussian Splatting methods predict pixel-aligned primitives, leading to a quadratic growth in primitive count as resolution increases. This fundamentally limits their scalability, making high-resolution synthesis such as 4K intractable. We introduce LGTM (Less Gaussians, Texture More), a feed-forward framework that overcomes this resolution scaling barrier. By predicting compact Gaussian primitives coupled with per-primitive textures, LGTM decouples geometric complexity from rendering resolution. This approach enables high-fidelity 4K novel view synthesis without per-scene optimization, a capability previously out of reach for feed-forward methods, all while using significantly fewer Gaussian primitives. Project page: https://yxlao.github.io/lgtm/