GVD: Guiding Video Diffusion Model for Scalable Video Distillation
作者: Kunyang Li, Jeffrey A Chan Santiago, Sarinda Dhanesh Samarasinghe, Gaowen Liu, Mubarak Shah
分类: cs.CV, cs.AI
发布日期: 2025-07-30
💡 一句话要点
提出GVD:一种引导视频扩散模型,用于可扩展的视频数据集蒸馏。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视频数据集蒸馏 扩散模型 视频生成 时空特征学习 引导扩散
📋 核心要点
- 现有视频数据集过大,训练成本高昂,视频数据集蒸馏旨在用小规模数据集保留原始数据集的关键信息。
- GVD通过引导视频扩散模型,联合蒸馏视频的空间和时间特征,从而生成高质量且具有代表性的视频。
- 实验表明,GVD在MiniUCF和HMDB51数据集上显著优于现有方法,仅用少量帧数即可达到接近原始数据集的性能。
📝 摘要(中文)
为了解决大型视频数据集带来的巨大计算和存储需求,视频数据集蒸馏旨在用一个显著更小的数据集捕获空间和时间信息,使得在蒸馏数据上训练能够达到与在完整数据集上训练相媲美的性能。我们提出了GVD:引导视频扩散,这是第一个基于扩散模型的视频蒸馏方法。GVD联合蒸馏空间和时间特征,确保跨多种动作的高保真视频生成,同时捕获必要的运动信息。我们的方法在MiniUCF和HMDB51数据集上,在每类5、10和20个实例(IPC)的情况下,显著优于先前的最先进方法。具体而言,我们的方法仅使用MiniUCF中总帧数的1.98%就达到了原始数据集78.29%的性能。此外,仅使用HMDB51中3.30%的帧数就达到了73.83%的性能。在基准视频数据集上的实验结果表明,GVD不仅实现了最先进的性能,还可以生成更高分辨率的视频和更高的IPC,而不会显著增加计算成本。
🔬 方法详解
问题定义:视频数据集蒸馏旨在从原始的大型视频数据集中提取一个更小、更具代表性的子集,使得在该子集上训练的模型能够达到与在原始数据集上训练的模型相近的性能。现有的视频蒸馏方法通常难以同时兼顾空间和时间信息的有效压缩,导致生成视频的质量和代表性不足,或者计算成本过高。
核心思路:GVD的核心思路是利用扩散模型强大的生成能力,通过引导扩散过程,联合蒸馏视频的空间和时间特征。通过精心设计的引导机制,使得生成的视频既能保持高保真度,又能捕捉到关键的运动信息,从而实现高效的视频数据集蒸馏。
技术框架:GVD的整体框架基于扩散模型,主要包含以下几个阶段:1) 训练一个视频扩散模型,使其能够生成高质量的视频。2) 设计引导机制,例如使用分类器指导扩散过程,使得生成的视频具有特定的类别属性。3) 通过优化选择过程,选择最具代表性的视频帧,构成蒸馏后的数据集。
关键创新:GVD的关键创新在于将扩散模型应用于视频数据集蒸馏,并设计了有效的引导机制,从而能够联合蒸馏空间和时间特征。与传统的基于优化的蒸馏方法相比,GVD能够生成更高质量、更具代表性的视频,并且具有更好的可扩展性。
关键设计:GVD的关键设计包括:1) 使用3D卷积神经网络作为扩散模型的骨干网络,以捕捉视频中的时空信息。2) 设计分类器引导机制,使用预训练的视频分类器来指导扩散过程,使得生成的视频具有特定的类别属性。3) 使用基于信息熵的选择策略,选择最具代表性的视频帧,构成蒸馏后的数据集。
🖼️ 关键图片
📊 实验亮点
GVD在MiniUCF和HMDB51数据集上取得了显著的性能提升。在MiniUCF上,仅使用1.98%的帧数就达到了原始数据集78.29%的性能。在HMDB51上,仅使用3.30%的帧数就达到了73.83%的性能。实验结果表明,GVD不仅优于现有的视频蒸馏方法,还可以生成更高分辨率的视频和更高的IPC,而不会显著增加计算成本。
🎯 应用场景
GVD可应用于大规模视频数据分析、视频内容理解、视频检索等领域。通过将大型视频数据集蒸馏成更小的数据集,可以显著降低计算和存储成本,提高算法的训练效率。此外,GVD还可以用于生成具有特定属性的合成视频,例如用于数据增强或模型泛化性提升。
📄 摘要(原文)
To address the larger computation and storage requirements associated with large video datasets, video dataset distillation aims to capture spatial and temporal information in a significantly smaller dataset, such that training on the distilled data has comparable performance to training on all of the data. We propose GVD: Guiding Video Diffusion, the first diffusion-based video distillation method. GVD jointly distills spatial and temporal features, ensuring high-fidelity video generation across diverse actions while capturing essential motion information. Our method's diverse yet representative distillations significantly outperform previous state-of-the-art approaches on the MiniUCF and HMDB51 datasets across 5, 10, and 20 Instances Per Class (IPC). Specifically, our method achieves 78.29 percent of the original dataset's performance using only 1.98 percent of the total number of frames in MiniUCF. Additionally, it reaches 73.83 percent of the performance with just 3.30 percent of the frames in HMDB51. Experimental results across benchmark video datasets demonstrate that GVD not only achieves state-of-the-art performance but can also generate higher resolution videos and higher IPC without significantly increasing computational cost.