Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking

作者: Zihan Su, Xuerui Qiu, Hongbin Xu, Tangyu Jiang, Junhao Zhuang, Chun Yuan, Ming Li, Shengfeng He, Fei Richard Yu

分类: cs.CV

发布日期: 2025-05-19 (更新: 2025-09-22)

备注: Safa-Sora is accepted by NeurIPS 2025

🔗 代码/项目: GITHUB

💡 一句话要点

Safe-Sora：通过图形式水印实现安全的文本到视频生成

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation)

关键词: 文本到视频生成 生成式水印 版权保护 状态空间模型 Mamba架构 自适应匹配 视频水印

📋 核心要点

现有视频生成模型缺乏有效的水印嵌入方法，难以保护AI生成内容的版权，存在安全隐患。
Safe-Sora通过分层自适应匹配机制和3D小波变换增强的Mamba架构，将图形水印无缝嵌入到视频生成过程中。
实验表明，Safe-Sora在视频质量、水印保真度和鲁棒性方面均优于现有方法，实现了最先进的性能。

📝 摘要（中文）

生成视频模型的爆炸式增长增加了对AI生成内容可靠版权保护的需求。尽管隐形生成水印在图像合成中很受欢迎，但在视频生成中仍未得到充分探索。为了弥补这一差距，我们提出了Safe-Sora，这是第一个将图形水印直接嵌入到视频生成过程中的框架。受水印性能与水印和覆盖内容之间的视觉相似性密切相关的观察的启发，我们引入了一种分层由粗到精的自适应匹配机制。具体来说，水印图像被分成多个块，每个块被分配到视觉上最相似的视频帧，并进一步定位到最佳空间区域以实现无缝嵌入。为了实现水印块在视频帧之间的时空融合，我们开发了一种具有新型时空局部扫描策略的3D小波变换增强的Mamba架构，有效地建模了水印嵌入和检索过程中的长程依赖关系。据我们所知，这是首次尝试将状态空间模型应用于水印技术，为高效且鲁棒的水印保护开辟了新途径。大量实验表明，Safe-Sora在视频质量、水印保真度和鲁棒性方面均达到了最先进的性能，这主要归功于我们的提议。

🔬 方法详解

问题定义：论文旨在解决文本到视频生成模型中AI生成内容的版权保护问题。现有的视频生成模型缺乏有效的水印嵌入方法，容易被滥用，难以追溯来源，因此需要一种鲁棒且不影响视频质量的水印方案。

核心思路：论文的核心思路是利用水印与视频内容之间的视觉相似性，通过分层自适应匹配机制将水印图像的各个部分嵌入到视频帧中最合适的区域。同时，利用3D小波变换和Mamba架构来建模水印在时空上的依赖关系，提高水印的鲁棒性和不可见性。

技术框架：Safe-Sora框架主要包含以下几个模块：1) 水印图像分块：将水印图像分割成多个patch。2) 视频帧视觉相似性评估：计算每个水印patch与每个视频帧的视觉相似度。3) 分层自适应匹配：将每个水印patch分配到视觉上最相似的视频帧，并进一步定位到该帧中的最佳空间区域。4) 3D小波变换增强的Mamba架构：利用3D小波变换提取视频的时空特征，并使用Mamba架构建模长程依赖关系，从而实现水印的嵌入和检索。

关键创新：论文的关键创新在于：1) 提出了一种分层由粗到精的自适应匹配机制，能够根据视频内容自适应地嵌入水印。2) 首次将状态空间模型（Mamba）应用于视频水印，并结合3D小波变换，有效地建模了水印在时空上的依赖关系。3) 提出了一种新型的时空局部扫描策略，进一步提升了Mamba架构的性能。

关键设计：在分层自适应匹配中，使用了预训练的视觉模型（例如CLIP）来计算水印patch和视频帧之间的视觉相似度。3D小波变换用于提取视频的时空特征，并作为Mamba架构的输入。Mamba架构中的状态空间模型参数通过训练进行优化，以实现最佳的水印嵌入和检索性能。损失函数的设计需要平衡视频质量、水印保真度和鲁棒性。

🖼️ 关键图片

📊 实验亮点

Safe-Sora在视频质量、水印保真度和鲁棒性方面均取得了显著的提升。实验结果表明，Safe-Sora在保持视频质量的同时，能够有效地抵抗各种攻击，例如裁剪、缩放、旋转和噪声添加。与现有方法相比，Safe-Sora在水印提取的准确率和鲁棒性方面均有明显优势。

🎯 应用场景

Safe-Sora可应用于各种AI生成视频的版权保护场景，例如电影制作、广告创意、教育内容等。通过嵌入不可见的水印，可以有效防止未经授权的复制和传播，维护创作者的权益。该技术还有助于追踪AI生成内容的来源，打击虚假信息和恶意传播。

📄 摘要（原文）

The explosive growth of generative video models has amplified the demand for reliable copyright preservation of AI-generated content. Despite its popularity in image synthesis, invisible generative watermarking remains largely underexplored in video generation. To address this gap, we propose Safe-Sora, the first framework to embed graphical watermarks directly into the video generation process. Motivated by the observation that watermarking performance is closely tied to the visual similarity between the watermark and cover content, we introduce a hierarchical coarse-to-fine adaptive matching mechanism. Specifically, the watermark image is divided into patches, each assigned to the most visually similar video frame, and further localized to the optimal spatial region for seamless embedding. To enable spatiotemporal fusion of watermark patches across video frames, we develop a 3D wavelet transform-enhanced Mamba architecture with a novel spatiotemporal local scanning strategy, effectively modeling long-range dependencies during watermark embedding and retrieval. To the best of our knowledge, this is the first attempt to apply state space models to watermarking, opening new avenues for efficient and robust watermark protection. Extensive experiments demonstrate that Safe-Sora achieves state-of-the-art performance in terms of video quality, watermark fidelity, and robustness, which is largely attributed to our proposals. Code is publicly available at https://github.com/Sugewud/Safe-Sora

Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理