StyledStreets: Multi-style Street Simulator with Spatial and Temporal Consistency
作者: Yuyin Chen, Yida Wang, Xueyang Zhang, Kun Zhan, Peng Jia, Yifei Zhan, Xianpeng Lang
分类: cs.CV
发布日期: 2025-03-27
备注: 14 pages
💡 一句话要点
StyledStreets:提出时空一致的多风格街景模拟器,用于城市环境重建。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 街景模拟 风格迁移 高斯溅射 时空一致性 多视角重建
📋 核心要点
- 现有城市重建方法难以兼顾静态基础设施和动态元素,且缺乏对多样化环境条件的支持。
- StyledStreets通过混合嵌入、不确定性感知渲染和统一参数化模型,实现了时空一致的多风格街景模拟。
- 实验结果表明,该方法在不同风格迁移下,几何精度达到了最先进水平,并能生成逼真的场景过渡效果。
📝 摘要(中文)
本文提出了一种名为StyledStreets的多风格街景模拟器,该模拟器能够在保证空间和时间一致性的前提下,实现指令驱动的场景编辑。该方法基于最先进的高斯溅射框架,并结合了我们提出的姿态优化和多视角训练方法,通过三个关键创新实现了逼真的风格迁移,包括季节、天气条件和相机设置:首先,混合嵌入方案将持久的场景几何结构与瞬态的风格属性分离,从而在保持结构完整性的同时实现逼真的环境编辑。其次,不确定性感知渲染减轻了扩散先验带来的监督噪声,从而实现了在极端风格变化下的鲁棒训练。第三,统一的参数化模型通过正则化更新防止了几何漂移,从而保持了七个车载摄像头之间的多视角一致性。我们的框架保留了原始场景的运动模式和几何关系。定性结果表明,在不同条件(雪、沙尘暴、夜晚)之间存在合理的过渡,而定量评估表明,在风格迁移下,几何精度达到了最先进的水平。该方法为城市模拟建立了新的能力,可应用于自动驾驶汽车测试和需要可靠环境一致性的增强现实系统。代码将在发表后公开。
🔬 方法详解
问题定义:现有城市重建方法在模拟不同环境风格(如季节、天气)时,难以保持场景的空间和时间一致性,容易出现几何结构扭曲和运动模式失真。此外,扩散模型引入的噪声也会影响训练的鲁棒性。
核心思路:StyledStreets的核心思路是将场景的几何结构和风格属性解耦,并分别进行建模。通过混合嵌入方案,将场景几何结构表示为持久不变的部分,而风格属性则表示为瞬态变化的部分。同时,利用不确定性感知渲染来减轻扩散先验带来的噪声影响,并采用统一的参数化模型来防止几何漂移,从而保证多视角一致性。
技术框架:StyledStreets的整体框架基于高斯溅射,并在此基础上进行了改进。主要包含以下几个模块:1) 姿态优化和多视角训练模块,用于提高场景重建的精度;2) 混合嵌入模块,用于解耦场景几何结构和风格属性;3) 不确定性感知渲染模块,用于减轻扩散先验带来的噪声影响;4) 统一参数化模型,用于防止几何漂移。
关键创新:StyledStreets的关键创新在于以下三个方面:1) 混合嵌入方案,实现了场景几何结构和风格属性的解耦;2) 不确定性感知渲染,提高了训练的鲁棒性;3) 统一参数化模型,保证了多视角一致性。与现有方法相比,StyledStreets能够更好地保持场景的空间和时间一致性,并生成更逼真的风格迁移效果。
关键设计:混合嵌入方案采用了一种混合编码方式,将场景几何结构编码为高斯分布的均值和方差,而风格属性则编码为额外的风格向量。不确定性感知渲染通过引入不确定性权重来降低噪声像素的贡献。统一参数化模型采用了一种正则化损失函数,约束几何结构的更新,防止几何漂移。
🖼️ 关键图片
📊 实验亮点
StyledStreets在风格迁移任务中取得了最先进的几何精度。定性结果表明,该方法能够生成逼真的雪、沙尘暴、夜晚等场景过渡效果。定量评估表明,该方法在风格迁移下,几何精度优于现有方法。
🎯 应用场景
StyledStreets在自动驾驶汽车测试、增强现实系统等领域具有广泛的应用前景。它可以用于生成各种不同环境条件下的街景图像,从而帮助自动驾驶汽车进行环境感知和决策。此外,它还可以用于增强现实应用,例如在虚拟环境中模拟真实世界的场景,为用户提供更逼真的体验。
📄 摘要(原文)
Urban scene reconstruction requires modeling both static infrastructure and dynamic elements while supporting diverse environmental conditions. We present \textbf{StyledStreets}, a multi-style street simulator that achieves instruction-driven scene editing with guaranteed spatial and temporal consistency. Building on a state-of-the-art Gaussian Splatting framework for street scenarios enhanced by our proposed pose optimization and multi-view training, our method enables photorealistic style transfers across seasons, weather conditions, and camera setups through three key innovations: First, a hybrid embedding scheme disentangles persistent scene geometry from transient style attributes, allowing realistic environmental edits while preserving structural integrity. Second, uncertainty-aware rendering mitigates supervision noise from diffusion priors, enabling robust training across extreme style variations. Third, a unified parametric model prevents geometric drift through regularized updates, maintaining multi-view consistency across seven vehicle-mounted cameras. Our framework preserves the original scene's motion patterns and geometric relationships. Qualitative results demonstrate plausible transitions between diverse conditions (snow, sandstorm, night), while quantitative evaluations show state-of-the-art geometric accuracy under style transfers. The approach establishes new capabilities for urban simulation, with applications in autonomous vehicle testing and augmented reality systems requiring reliable environmental consistency. Codes will be publicly available upon publication.