Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

📄 arXiv: 2509.26455v1 📥 PDF

作者: Hanzhou Liu, Jia Huang, Mi Lu, Srikanth Saripalli, Peng Jiang

分类: cs.CV

发布日期: 2025-09-30


💡 一句话要点

Stylos:基于单次前向高斯溅射的多视角3D风格迁移

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D风格迁移 高斯溅射 Transformer 零样本学习 多视角一致性

📋 核心要点

  1. 现有3D风格迁移方法通常需要逐场景优化或预先计算的姿态,限制了其泛化能力和效率。
  2. Stylos采用Transformer架构,通过自注意力和交叉注意力分别处理几何信息和风格信息,实现几何保持和风格迁移。
  3. Stylos引入基于体素的3D风格损失,增强了跨视角的风格一致性,并在多个数据集上实现了高质量的零样本风格化。

📝 摘要(中文)

Stylos是一个单次前向3D高斯框架,用于在非预置姿态的内容上进行3D风格迁移,内容可以是单张图像或多视角集合,并以单独的参考风格图像为条件。Stylos合成风格化的3D高斯场景,无需逐场景优化或预计算姿态,实现了几何感知、视角一致的风格化,并泛化到未见过的类别、场景和风格。其核心是采用具有两个路径的Transformer骨干网络:几何预测保留自注意力以保持几何保真度,而风格通过全局交叉注意力注入,以增强跨视角的视觉一致性。通过添加基于体素的3D风格损失,将聚合的场景特征与风格统计对齐,Stylos在保持几何形状的同时,实现了视角一致的风格化。在多个数据集上的实验表明,Stylos提供了高质量的零样本风格化,突出了全局风格-内容耦合、所提出的3D风格损失以及框架从单视角到大规模多视角设置的可扩展性。

🔬 方法详解

问题定义:现有3D风格迁移方法通常需要对每个场景进行单独优化,或者依赖于预先计算好的相机姿态,这限制了它们在实际应用中的泛化能力和效率。此外,如何保证跨视角的风格一致性也是一个挑战。

核心思路:Stylos的核心思路是利用Transformer架构,将几何信息和风格信息解耦处理。通过自注意力机制保持几何结构的完整性,同时利用全局交叉注意力将风格信息注入到场景中,从而实现风格迁移。此外,引入3D风格损失来保证跨视角的风格一致性。

技术框架:Stylos的整体框架包含一个Transformer骨干网络,该网络具有两个路径:一个用于几何预测,另一个用于风格注入。几何预测路径使用自注意力机制来保留几何细节。风格注入路径使用全局交叉注意力,将参考风格图像的特征注入到场景中。此外,还包含一个基于体素的3D风格损失,用于增强跨视角的风格一致性。整个流程是单次前向的,无需逐场景优化。

关键创新:Stylos的关键创新在于其全局风格-内容耦合方式和3D风格损失的设计。全局交叉注意力机制能够有效地将风格信息注入到场景中,而3D风格损失则能够保证跨视角的风格一致性。此外,Stylos的单次前向设计使其具有很高的效率和泛化能力。

关键设计:Stylos的关键设计包括:1) Transformer骨干网络的选择,使其能够有效地处理序列数据并捕捉全局上下文信息;2) 自注意力和交叉注意力的使用,分别用于保持几何信息和注入风格信息;3) 基于体素的3D风格损失,通过对聚合的场景特征和风格统计进行对齐,实现视角一致的风格化。具体的损失函数形式和网络结构参数需要在论文中查找。

📊 实验亮点

Stylos在多个数据集上进行了实验,证明了其高质量的零样本风格化能力。实验结果表明,Stylos能够生成几何感知、视角一致的风格化3D场景,并且能够泛化到未见过的类别、场景和风格。与现有方法相比,Stylos具有更高的效率和更好的泛化能力。具体的性能数据和对比基线需要在论文中查找。

🎯 应用场景

Stylos具有广泛的应用前景,例如艺术创作、游戏开发、虚拟现实和增强现实等领域。它可以用于快速生成具有特定风格的3D场景,无需耗时的手动建模和纹理处理。此外,Stylos还可以用于风格化的3D内容生成,例如将照片转换为艺术风格的3D模型。

📄 摘要(原文)

We present Stylos, a single-forward 3D Gaussian framework for 3D style transfer that operates on unposed content, from a single image to a multi-view collection, conditioned on a separate reference style image. Stylos synthesizes a stylized 3D Gaussian scene without per-scene optimization or precomputed poses, achieving geometry-aware, view-consistent stylization that generalizes to unseen categories, scenes, and styles. At its core, Stylos adopts a Transformer backbone with two pathways: geometry predictions retain self-attention to preserve geometric fidelity, while style is injected via global cross-attention to enforce visual consistency across views. With the addition of a voxel-based 3D style loss that aligns aggregated scene features to style statistics, Stylos enforces view-consistent stylization while preserving geometry. Experiments across multiple datasets demonstrate that Stylos delivers high-quality zero-shot stylization, highlighting the effectiveness of global style-content coupling, the proposed 3D style loss, and the scalability of our framework from single view to large-scale multi-view settings.