FPGS: Feed-Forward Semantic-aware Photorealistic Style Transfer of Large-Scale Gaussian Splatting
作者: GeonU Kim, Kim Youwang, Lee Hyoseok, Tae-Hyun Oh
分类: cs.GR, cs.AI
发布日期: 2025-03-11
备注: Project page: https://kim-geonu.github.io/FPGS/. arXiv admin note: substantial text overlap with arXiv:2401.05516
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
FPGS:基于前馈语义感知的GS大规模场景照片级风格迁移
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 风格迁移 高斯溅射 辐射场 3D场景 语义感知
📋 核心要点
- 现有风格迁移方法在处理大规模3D场景时,面临着计算量大、需要逐场景优化以及难以保持多视角一致性的挑战。
- FPGS通过引入风格分解的3D特征场,并结合AdaIN风格迁移机制,实现了对大规模场景的快速风格化,无需额外优化。
- 实验结果表明,FPGS在保持实时渲染速度和多视角一致性的前提下,能够生成高质量的照片级风格化3D场景。
📝 摘要(中文)
本文提出了一种名为FPGS的前馈照片级风格迁移方法,用于高斯溅射表示的大规模辐射场。FPGS能够使用任意多个风格参考图像对大规模3D场景进行风格化,无需额外的优化,同时保持3D高斯的实时渲染速度和多视角一致性。现有技术需要繁琐的逐风格优化或耗时的逐场景训练阶段,并且仅限于小规模3D场景。FPGS通过引入风格分解的3D特征场来有效地风格化大规模3D场景,该特征场继承了AdaIN的前馈风格化机制,支持任意风格参考图像。此外,FPGS支持使用语义对应匹配和局部AdaIN进行多参考风格化,从而为3D场景风格添加了多样化的用户控制。FPGS还通过将语义匹配和风格迁移过程直接应用于3D空间中查询的特征来保持多视角一致性。实验表明,FPGS能够使用不同的参考图像为大规模静态和动态3D场景实现良好的照片级质量的场景风格化。
🔬 方法详解
问题定义:现有3D场景风格迁移方法通常需要针对每个风格进行单独优化,或者需要对每个场景进行训练,计算成本高昂,且难以扩展到大规模场景。此外,保持多视角一致性也是一个挑战,因为不同视角下的渲染结果可能不一致。
核心思路:FPGS的核心思路是将风格迁移过程分解为风格特征提取和风格应用两个步骤。通过预先训练一个风格分解网络,将任意风格图像分解为风格特征。然后,利用AdaIN(Adaptive Instance Normalization)将风格特征应用到3D场景的特征表示上,从而实现风格迁移。这种前馈方法避免了逐场景优化,提高了效率。
技术框架:FPGS的整体框架包括以下几个主要模块:1) 3D场景表示:使用高斯溅射(Gaussian Splatting)表示3D场景。2) 风格分解网络:用于提取风格参考图像的风格特征。3) 3D特征场:将3D场景表示转换为特征场。4) AdaIN风格迁移:将风格特征应用到3D特征场上。5) 渲染:将风格化后的3D场景渲染成图像。
关键创新:FPGS的关键创新在于:1) 提出了风格分解的3D特征场,能够有效地表示3D场景的风格信息。2) 采用了前馈的AdaIN风格迁移机制,避免了逐场景优化,提高了效率。3) 引入了语义对应匹配和局部AdaIN,支持多参考风格化,增加了用户控制。
关键设计:FPGS的关键设计包括:1) 风格分解网络的结构和训练方式,需要保证能够提取到有效的风格特征。2) 3D特征场的构建方式,需要能够有效地表示3D场景的几何和外观信息。3) AdaIN的参数设置,需要能够平衡风格迁移的效果和场景内容的保持。4) 损失函数的设计,需要能够保证风格迁移的质量和多视角一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FPGS能够使用不同的参考图像为大规模静态和动态3D场景实现高质量的照片级风格化。与现有方法相比,FPGS在保持实时渲染速度和多视角一致性的前提下,能够生成更逼真的风格化效果。项目主页提供了详细的实验结果和代码。
🎯 应用场景
FPGS具有广泛的应用前景,例如:游戏和电影制作中,可以快速生成具有特定风格的3D场景;虚拟现实和增强现实应用中,可以为用户提供个性化的视觉体验;建筑设计和城市规划中,可以模拟不同风格的建筑和城市景观。该研究的实际价值在于降低了3D场景风格迁移的成本和难度,未来可能促进更多创意应用的出现。
📄 摘要(原文)
We present FPGS, a feed-forward photorealistic style transfer method of large-scale radiance fields represented by Gaussian Splatting. FPGS, stylizes large-scale 3D scenes with arbitrary, multiple style reference images without additional optimization while preserving multi-view consistency and real-time rendering speed of 3D Gaussians. Prior arts required tedious per-style optimization or time-consuming per-scene training stage and were limited to small-scale 3D scenes. FPGS efficiently stylizes large-scale 3D scenes by introducing a style-decomposed 3D feature field, which inherits AdaIN's feed-forward stylization machinery, supporting arbitrary style reference images. Furthermore, FPGS supports multi-reference stylization with the semantic correspondence matching and local AdaIN, which adds diverse user control for 3D scene styles. FPGS also preserves multi-view consistency by applying semantic matching and style transfer processes directly onto queried features in 3D space. In experiments, we demonstrate that FPGS achieves favorable photorealistic quality scene stylization for large-scale static and dynamic 3D scenes with diverse reference images. Project page: https://kim-geonu.github.io/FPGS/