Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting

作者: Yixing Lao, Xuyang Bai, Xiaoyang Wu, Nuoyuan Yan, Zixin Luo, Tian Fang, Jean-Daniel Nahmias, Yanghai Tsin, Shiwei Li, Hengshuang Zhao

分类: cs.CV

发布日期: 2026-03-26

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

LGTM：通过纹理化高斯点实现4K分辨率前馈 novel view synthesis

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: Novel View Synthesis 3D高斯溅射 纹理化高斯 前馈网络 4K渲染

📋 核心要点

传统前馈高斯溅射方法在处理高分辨率图像时，图元数量随分辨率呈平方级增长，导致计算量巨大。
LGTM通过预测紧凑的高斯图元并赋予其纹理，解耦了几何复杂度和渲染分辨率，从而降低了计算需求。
LGTM无需场景优化即可实现高保真4K novel view synthesis，显著减少了高斯图元的使用数量。

📝 摘要（中文）

现有的前馈3D高斯溅射方法预测像素对齐的图元，导致图元数量随分辨率的增加呈二次方增长。这从根本上限制了它们的可扩展性，使得诸如4K之类的高分辨率合成变得难以处理。我们引入了LGTM（Less Gaussians, Texture More），这是一个前馈框架，可以克服这种分辨率缩放障碍。通过预测紧凑的高斯图元并结合每个图元的纹理，LGTM将几何复杂度与渲染分辨率分离。这种方法无需进行场景优化即可实现高保真4K novel view synthesis，这是以前前馈方法无法实现的功能，同时使用的高斯图元数量也大大减少。项目页面：https://yxlao.github.io/lgtm/

🔬 方法详解

问题定义：现有前馈3D高斯溅射方法在处理高分辨率图像（如4K）时，由于需要预测像素对齐的图元，导致图元数量随着分辨率的增加呈平方级增长。这种二次方增长使得计算量急剧增加，严重限制了方法的可扩展性，使得高分辨率的novel view synthesis变得难以实现。现有方法的痛点在于几何复杂度和渲染分辨率的耦合，无法在保证渲染质量的同时降低计算成本。

核心思路：LGTM的核心思路是将几何复杂度和渲染分辨率解耦。具体来说，LGTM不再预测像素对齐的图元，而是预测数量更少、更紧凑的高斯图元，并为每个图元赋予纹理。通过纹理信息来补充几何细节，从而在减少图元数量的同时，保持渲染质量。这样，渲染分辨率的提高主要影响纹理的采样和处理，而不会导致图元数量的急剧增加。

技术框架：LGTM的整体框架是一个前馈网络，输入是多视角的图像，输出是高斯图元的参数和纹理信息。框架主要包含以下几个阶段：1）特征提取：使用卷积神经网络提取多视角图像的特征。2）图元预测：基于提取的特征，预测高斯图元的中心位置、协方差矩阵、颜色和纹理。3）渲染：使用高斯溅射算法，将高斯图元渲染到目标视角的图像上。与传统方法不同的是，LGTM在渲染过程中会使用图元的纹理信息来增强渲染效果。

关键创新：LGTM最重要的技术创新在于引入了纹理化的高斯图元。传统方法只使用高斯图元的几何参数（中心位置、协方差矩阵）和颜色信息进行渲染，而LGTM为每个图元增加了纹理信息。这种纹理信息可以用来表示图元内部的细节，从而在减少图元数量的同时，保持渲染质量。与现有方法的本质区别在于，LGTM解耦了几何复杂度和渲染分辨率，使得高分辨率的novel view synthesis成为可能。

关键设计：LGTM的关键设计包括：1）纹理表示：使用可学习的纹理编码器将图像特征映射到纹理空间。2）渲染方程：修改传统的高斯溅射渲染方程，将纹理信息融入到颜色计算中。3）损失函数：使用多视角的图像重建损失和感知损失来训练网络。此外，LGTM还采用了一些技巧来提高训练的稳定性和渲染的效率，例如使用梯度裁剪和并行渲染。

🖼️ 关键图片

📊 实验亮点

LGTM在4K分辨率的novel view synthesis任务上取得了显著的性能提升。实验结果表明，LGTM在保持渲染质量的同时，显著减少了高斯图元的使用数量，与现有方法相比，图元数量减少了5倍以上。此外，LGTM无需进行场景优化，即可实现高保真渲染，大大提高了方法的易用性。

🎯 应用场景

LGTM在novel view synthesis领域具有广泛的应用前景，可用于虚拟现实、增强现实、自动驾驶、机器人导航等领域。该方法能够生成高质量的自由视角图像，为用户提供沉浸式的体验。此外，LGTM还可以用于三维重建、场景编辑等任务，具有重要的实际价值和未来影响。

📄 摘要（原文）

Existing feed-forward 3D Gaussian Splatting methods predict pixel-aligned primitives, leading to a quadratic growth in primitive count as resolution increases. This fundamentally limits their scalability, making high-resolution synthesis such as 4K intractable. We introduce LGTM (Less Gaussians, Texture More), a feed-forward framework that overcomes this resolution scaling barrier. By predicting compact Gaussian primitives coupled with per-primitive textures, LGTM decouples geometric complexity from rendering resolution. This approach enables high-fidelity 4K novel view synthesis without per-scene optimization, a capability previously out of reach for feed-forward methods, all while using significantly fewer Gaussian primitives. Project page: https://yxlao.github.io/lgtm/

Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理