Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting
作者: Hanzhou Liu, Jia Huang, Mi Lu, Srikanth Saripalli, Peng Jiang
分类: cs.CV
发布日期: 2025-09-30
💡 一句话要点
Stylos:基于单次前向高斯溅射的多视角3D风格迁移
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D风格迁移 高斯溅射 Transformer 零样本学习 多视角学习
📋 核心要点
- 现有3D风格迁移方法通常需要逐场景优化或预先计算的姿态,限制了其泛化能力和效率。
- Stylos利用Transformer架构,通过几何预测和风格注入的双路径,实现几何感知和视角一致的风格化。
- 实验证明,Stylos在多个数据集上实现了高质量的零样本风格化,并具备良好的可扩展性。
📝 摘要(中文)
Stylos是一个单次前向3D高斯框架,用于在非预设内容上进行3D风格迁移,内容可以来自单张图像或多视角集合,并以单独的参考风格图像为条件。Stylos合成风格化的3D高斯场景,无需逐场景优化或预计算姿态,实现几何感知、视角一致的风格化,并泛化到未见过的类别、场景和风格。其核心是采用具有两个路径的Transformer骨干网络:几何预测保留自注意力以保持几何保真度,而风格通过全局交叉注意力注入以强制跨视角的视觉一致性。通过添加基于体素的3D风格损失,将聚合的场景特征与风格统计对齐,Stylos在保持几何形状的同时强制视角一致的风格化。跨多个数据集的实验表明,Stylos提供了高质量的零样本风格化,突出了全局风格-内容耦合、所提出的3D风格损失以及我们的框架从单视图到大规模多视图设置的可扩展性。
🔬 方法详解
问题定义:现有的3D风格迁移方法通常需要对每个场景进行单独的优化,计算成本高昂,并且难以泛化到未见过的场景和风格。此外,一些方法依赖于预先计算的相机姿态,这在实际应用中可能难以获取。因此,如何在没有逐场景优化和预计算姿态的情况下,实现几何感知和视角一致的3D风格迁移是一个挑战。
核心思路:Stylos的核心思路是利用Transformer架构,通过全局的风格-内容耦合,实现高效且可泛化的3D风格迁移。具体来说,它使用一个双路径的Transformer,一个路径负责几何预测,保持几何保真度;另一个路径负责风格注入,强制跨视角的视觉一致性。此外,还引入了基于体素的3D风格损失,以确保风格化结果在3D空间中的一致性。
技术框架:Stylos的整体框架包括以下几个主要模块:1) 特征提取模块,用于从内容图像和风格图像中提取特征;2) Transformer骨干网络,包含几何预测路径和风格注入路径;3) 3D高斯表示模块,用于将风格化后的特征转换为3D高斯场景;4) 3D风格损失计算模块,用于计算风格化结果与目标风格之间的差异。整个流程是单次前向的,无需迭代优化。
关键创新:Stylos的关键创新在于以下几个方面:1) 提出了一个单次前向的3D风格迁移框架,避免了逐场景优化;2) 利用Transformer架构实现了全局的风格-内容耦合,提高了风格迁移的效率和泛化能力;3) 引入了基于体素的3D风格损失,确保了风格化结果在3D空间中的一致性。与现有方法相比,Stylos在效率、泛化性和风格一致性方面都具有优势。
关键设计:在Transformer骨干网络中,几何预测路径使用自注意力机制来保持几何保真度,而风格注入路径使用全局交叉注意力机制来强制跨视角的视觉一致性。3D风格损失采用基于体素的方法,将聚合的场景特征与风格统计对齐。损失函数包括风格损失、内容损失和几何损失,以平衡风格迁移的效果和几何结构的保持。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
Stylos在多个数据集上进行了实验,结果表明,它能够实现高质量的零样本风格化,并且在视角一致性和几何保真度方面表现出色。与现有的风格迁移方法相比,Stylos在效率和泛化能力方面具有显著优势。实验结果还验证了全局风格-内容耦合和3D风格损失的有效性。
🎯 应用场景
Stylos具有广泛的应用前景,例如:虚拟现实/增强现实内容创作、游戏美术设计、电影特效制作等。它可以帮助用户快速生成具有特定风格的3D场景,无需专业的3D建模技能。此外,Stylos还可以用于艺术创作和设计,为艺术家和设计师提供新的创作工具和灵感。
📄 摘要(原文)
We present Stylos, a single-forward 3D Gaussian framework for 3D style transfer that operates on unposed content, from a single image to a multi-view collection, conditioned on a separate reference style image. Stylos synthesizes a stylized 3D Gaussian scene without per-scene optimization or precomputed poses, achieving geometry-aware, view-consistent stylization that generalizes to unseen categories, scenes, and styles. At its core, Stylos adopts a Transformer backbone with two pathways: geometry predictions retain self-attention to preserve geometric fidelity, while style is injected via global cross-attention to enforce visual consistency across views. With the addition of a voxel-based 3D style loss that aligns aggregated scene features to style statistics, Stylos enforces view-consistent stylization while preserving geometry. Experiments across multiple datasets demonstrate that Stylos delivers high-quality zero-shot stylization, highlighting the effectiveness of global style-content coupling, the proposed 3D style loss, and the scalability of our framework from single view to large-scale multi-view settings.