Controllable Weather Synthesis and Removal with Video Diffusion Models

📄 arXiv: 2505.00704v2 📥 PDF

作者: Chih-Hao Lin, Zian Wang, Ruofan Liang, Yuxuan Zhang, Sanja Fidler, Shenlong Wang, Zan Gojcic

分类: cs.GR, cs.CV

发布日期: 2025-05-01 (更新: 2025-07-18)

备注: International Conference on Computer Vision (ICCV) 2025, Project Website: https://research.nvidia.com/labs/toronto-ai/WeatherWeaver/


💡 一句话要点

提出WeatherWeaver,一种可控的视频扩散模型,用于合成和移除视频中的天气效果。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 视频扩散模型 天气合成 天气移除 可控生成 视频编辑

📋 核心要点

  1. 现有基于物理的天气模拟方法需要精确的重建,难以扩展到真实视频,而视频编辑缺乏真实性和控制性。
  2. WeatherWeaver通过视频扩散模型直接在视频中合成天气效果,无需3D建模,并提供天气强度控制和混合功能。
  3. 该方法结合合成视频、图像编辑和自动标注的真实视频进行训练,实验表明其在天气模拟和移除方面优于现有方法。

📝 摘要(中文)

本文提出WeatherWeaver,一种视频扩散模型,旨在将各种天气效果(包括雨、雪、雾和云)直接合成到任何输入视频中,而无需进行3D建模。该模型能够精确控制天气效果的强度,并支持混合多种天气类型,从而确保真实性和适应性。为了克服配对训练数据稀缺的问题,本文提出了一种新颖的数据策略,该策略结合了合成视频、生成图像编辑和自动标记的真实世界视频。大量评估表明,该方法在天气模拟和移除方面优于当前最先进的方法,为各种真实世界视频提供高质量、物理上合理且保持场景一致性的结果。

🔬 方法详解

问题定义:现有方法在视频中添加或移除天气效果时面临挑战。基于物理的模拟需要精确的场景重建,难以应用于真实世界的视频。传统视频编辑方法缺乏真实感和精细控制能力,难以生成逼真的天气效果。因此,需要一种能够直接在视频中合成和移除天气效果,同时保持场景一致性和可控性的方法。

核心思路:WeatherWeaver的核心思路是利用视频扩散模型学习天气效果的分布,并将其融入到输入视频中。通过控制扩散过程中的噪声添加和去除,可以调节天气效果的强度和类型。该方法避免了复杂的3D建模和物理模拟,直接在像素级别操作,从而提高了效率和真实感。

技术框架:WeatherWeaver的整体框架基于扩散模型。首先,将输入视频编码成潜在表示。然后,通过扩散过程逐渐向潜在表示添加噪声,直到完全变成噪声。在逆扩散过程中,模型逐步去除噪声,并根据用户指定的条件(如天气类型和强度)合成天气效果。最后,将潜在表示解码回视频。该框架包含编码器、扩散模型和解码器三个主要模块。

关键创新:WeatherWeaver的关键创新在于其数据策略和控制机制。针对配对训练数据稀缺的问题,该方法结合了合成视频、生成图像编辑和自动标记的真实世界视频,从而构建了一个大规模的训练数据集。此外,该方法通过控制扩散过程中的噪声添加和去除,实现了对天气效果的精细控制。

关键设计:WeatherWeaver使用了U-Net结构的扩散模型,并引入了条件编码器来处理天气类型和强度等条件信息。损失函数包括重构损失和对抗损失,以保证生成视频的质量和真实感。在训练过程中,使用了数据增强技术来提高模型的泛化能力。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,WeatherWeaver在天气模拟和移除方面显著优于现有方法。在定量评估中,WeatherWeaver在FID和LPIPS等指标上取得了最佳性能,表明其生成的视频具有更高的质量和真实感。在定性评估中,用户更倾向于WeatherWeaver生成的结果,认为其天气效果更逼真,场景一致性更好。此外,实验还验证了WeatherWeaver对天气类型和强度的控制能力。

🎯 应用场景

WeatherWeaver具有广泛的应用前景,包括电影特效制作、游戏开发、自动驾驶模拟、天气预报可视化等。它可以帮助电影制作人员快速生成各种天气场景,提高游戏画面的真实感,为自动驾驶系统提供更逼真的训练环境,并以更直观的方式展示天气预报信息。该研究的未来影响在于推动视频编辑和合成技术的发展,为用户提供更便捷、更强大的工具。

📄 摘要(原文)

Generating realistic and controllable weather effects in videos is valuable for many applications. Physics-based weather simulation requires precise reconstructions that are hard to scale to in-the-wild videos, while current video editing often lacks realism and control. In this work, we introduce WeatherWeaver, a video diffusion model that synthesizes diverse weather effects -- including rain, snow, fog, and clouds -- directly into any input video without the need for 3D modeling. Our model provides precise control over weather effect intensity and supports blending various weather types, ensuring both realism and adaptability. To overcome the scarcity of paired training data, we propose a novel data strategy combining synthetic videos, generative image editing, and auto-labeled real-world videos. Extensive evaluations show that our method outperforms state-of-the-art methods in weather simulation and removal, providing high-quality, physically plausible, and scene-identity-preserving results over various real-world videos.