Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

作者: Hanzhou Liu, Jia Huang, Mi Lu, Srikanth Saripalli, Peng Jiang

分类: cs.CV

发布日期: 2025-09-30

💡 一句话要点

Stylos：基于单次前向高斯溅射的多视角3D风格迁移

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D风格迁移 高斯溅射 Transformer 零样本学习 多视角一致性

📋 核心要点

现有3D风格迁移方法通常需要逐场景优化或预先计算的姿态，限制了其泛化能力和效率。
Stylos采用Transformer架构，通过自注意力和交叉注意力分别处理几何信息和风格信息，实现几何保持和风格迁移。
Stylos引入基于体素的3D风格损失，增强了跨视角的风格一致性，并在多个数据集上实现了高质量的零样本风格化。

📝 摘要（中文）

Stylos是一个单次前向3D高斯框架，用于在非预置姿态的内容上进行3D风格迁移，内容可以是单张图像或多视角集合，并以单独的参考风格图像为条件。Stylos合成风格化的3D高斯场景，无需逐场景优化或预计算姿态，实现了几何感知、视角一致的风格化，并泛化到未见过的类别、场景和风格。其核心是采用具有两个路径的Transformer骨干网络：几何预测保留自注意力以保持几何保真度，而风格通过全局交叉注意力注入，以增强跨视角的视觉一致性。通过添加基于体素的3D风格损失，将聚合的场景特征与风格统计对齐，Stylos在保持几何形状的同时，实现了视角一致的风格化。在多个数据集上的实验表明，Stylos提供了高质量的零样本风格化，突出了全局风格-内容耦合、所提出的3D风格损失以及框架从单视角到大规模多视角设置的可扩展性。

🔬 方法详解

问题定义：现有3D风格迁移方法通常需要对每个场景进行单独优化，或者依赖于预先计算好的相机姿态，这限制了它们在实际应用中的泛化能力和效率。此外，如何保证跨视角的风格一致性也是一个挑战。

核心思路：Stylos的核心思路是利用Transformer架构，将几何信息和风格信息解耦处理。通过自注意力机制保持几何结构的完整性，同时利用全局交叉注意力将风格信息注入到场景中，从而实现风格迁移。此外，引入3D风格损失来保证跨视角的风格一致性。

技术框架：Stylos的整体框架包含一个Transformer骨干网络，该网络具有两个路径：一个用于几何预测，另一个用于风格注入。几何预测路径使用自注意力机制来保留几何细节。风格注入路径使用全局交叉注意力，将参考风格图像的特征注入到场景中。此外，还包含一个基于体素的3D风格损失，用于增强跨视角的风格一致性。整个流程是单次前向的，无需逐场景优化。

关键创新：Stylos的关键创新在于其全局风格-内容耦合方式和3D风格损失的设计。全局交叉注意力机制能够有效地将风格信息注入到场景中，而3D风格损失则能够保证跨视角的风格一致性。此外，Stylos的单次前向设计使其具有很高的效率和泛化能力。

关键设计：Stylos的关键设计包括：1) Transformer骨干网络的选择，使其能够有效地处理序列数据并捕捉全局上下文信息；2) 自注意力和交叉注意力的使用，分别用于保持几何信息和注入风格信息；3) 基于体素的3D风格损失，通过对聚合的场景特征和风格统计进行对齐，实现视角一致的风格化。具体的损失函数形式和网络结构参数需要在论文中查找。

📊 实验亮点

Stylos在多个数据集上进行了实验，证明了其高质量的零样本风格化能力。实验结果表明，Stylos能够生成几何感知、视角一致的风格化3D场景，并且能够泛化到未见过的类别、场景和风格。与现有方法相比，Stylos具有更高的效率和更好的泛化能力。具体的性能数据和对比基线需要在论文中查找。

🎯 应用场景

Stylos具有广泛的应用前景，例如艺术创作、游戏开发、虚拟现实和增强现实等领域。它可以用于快速生成具有特定风格的3D场景，无需耗时的手动建模和纹理处理。此外，Stylos还可以用于风格化的3D内容生成，例如将照片转换为艺术风格的3D模型。

📄 摘要（原文）

We present Stylos, a single-forward 3D Gaussian framework for 3D style transfer that operates on unposed content, from a single image to a multi-view collection, conditioned on a separate reference style image. Stylos synthesizes a stylized 3D Gaussian scene without per-scene optimization or precomputed poses, achieving geometry-aware, view-consistent stylization that generalizes to unseen categories, scenes, and styles. At its core, Stylos adopts a Transformer backbone with two pathways: geometry predictions retain self-attention to preserve geometric fidelity, while style is injected via global cross-attention to enforce visual consistency across views. With the addition of a voxel-based 3D style loss that aligns aggregated scene features to style statistics, Stylos enforces view-consistent stylization while preserving geometry. Experiments across multiple datasets demonstrate that Stylos delivers high-quality zero-shot stylization, highlighting the effectiveness of global style-content coupling, the proposed 3D style loss, and the scalability of our framework from single view to large-scale multi-view settings.

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册