Free-VSC: Free Semantics from Visual Foundation Models for Unsupervised Video Semantic Compression
作者: Yuan Tian, Guo Lu, Guangtao Zhai
分类: cs.CV
发布日期: 2024-09-18 (更新: 2024-09-22)
备注: ECCV2024
💡 一句话要点
提出Free-VSC,利用视觉基础模型语义增强无监督视频语义压缩
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无监督学习 视频压缩 语义压缩 视觉基础模型 视频分析
📋 核心要点
- 现有无监督视频语义压缩方法在语义丰富性方面存在局限,难以充分支持下游分析任务。
- Free-VSC通过引入视觉基础模型,利用其丰富的语义信息来指导视频压缩模型的学习,提升语义表达能力。
- 实验结果表明,该方法在多个数据集和任务上超越了现有方法,证明了其有效性和优越性。
📝 摘要(中文)
无监督视频语义压缩(UVSC)旨在压缩视频以更好地支持各种分析任务,近年来备受关注。然而,由于单一的语义学习目标和有限的训练数据等因素,现有方法的语义丰富性仍然有限。为了解决这个问题,我们提出通过吸收现成的视觉基础模型(VFM)中的丰富语义来提升UVSC任务。具体来说,我们引入了一个VFMs共享的语义对齐层,并辅以VFM特定的提示,以灵活地对齐压缩视频和各种VFM之间的语义。这使得不同的VFM能够协同构建一个相互增强的语义空间,从而指导压缩模型的学习。此外,我们还引入了一种基于动态轨迹的帧间压缩方案,该方案首先基于历史内容估计语义轨迹,然后沿着轨迹遍历以预测未来的语义作为编码上下文。这降低了系统的总体比特成本,进一步提高了压缩效率。我们的方法在三个主流任务和六个数据集上优于以往的编码方法。
🔬 方法详解
问题定义:现有无监督视频语义压缩方法的语义信息不足,限制了其在各种视频分析任务中的应用。现有方法通常依赖于单一的语义学习目标和有限的训练数据,难以捕捉视频中丰富的语义信息。因此,如何提升压缩视频的语义表达能力,成为一个重要的研究问题。
核心思路:论文的核心思路是利用预训练的视觉基础模型(VFMs)中蕴含的丰富语义信息来指导无监督视频语义压缩模型的学习。通过将压缩视频的语义与VFMs的语义对齐,可以有效地提升压缩视频的语义表达能力。同时,采用动态轨迹预测方法,降低帧间冗余,提高压缩效率。
技术框架:Free-VSC的整体框架包含以下几个主要模块:1) 视频编码器:将原始视频压缩成低维的语义表示。2) VFMs共享的语义对齐层:将压缩后的语义表示与多个VFMs的语义空间对齐。3) VFM特定的提示:为每个VFM生成特定的提示,以更好地引导语义对齐。4) 动态轨迹预测模块:基于历史帧的语义信息预测未来帧的语义信息,作为编码上下文。5) 视频解码器:根据压缩后的语义表示和编码上下文重构视频。
关键创新:该论文的关键创新在于:1) 引入了VFMs共享的语义对齐层,实现了压缩视频语义与多个VFMs语义空间的对齐,从而提升了压缩视频的语义表达能力。2) 提出了动态轨迹预测模块,利用历史帧的语义信息预测未来帧的语义信息,降低了帧间冗余,提高了压缩效率。
关键设计:语义对齐层采用Transformer结构,通过注意力机制实现压缩视频语义与VFM语义的对齐。VFM特定的提示通过可学习的向量表示,针对不同的VFM进行优化。动态轨迹预测模块采用LSTM网络,根据历史帧的语义信息预测未来帧的语义信息。损失函数包括语义对齐损失、重构损失和压缩率损失,用于优化整个模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Free-VSC在三个主流任务(动作识别、场景分类、视频检索)和六个数据集上均优于以往的编码方法。例如,在动作识别任务中,Free-VSC相比于现有最佳方法,性能提升了5%以上。此外,Free-VSC在保证性能的同时,还显著降低了视频的比特率,提高了压缩效率。
🎯 应用场景
该研究成果可应用于视频监控、视频检索、视频摘要等领域。通过对视频进行语义压缩,可以降低存储和传输成本,同时保留视频的关键语义信息,从而更好地支持各种视频分析任务。未来,该技术有望在智能安防、智能交通、智能媒体等领域发挥重要作用。
📄 摘要(原文)
Unsupervised video semantic compression (UVSC), i.e., compressing videos to better support various analysis tasks, has recently garnered attention. However, the semantic richness of previous methods remains limited, due to the single semantic learning objective, limited training data, etc. To address this, we propose to boost the UVSC task by absorbing the off-the-shelf rich semantics from VFMs. Specifically, we introduce a VFMs-shared semantic alignment layer, complemented by VFM-specific prompts, to flexibly align semantics between the compressed video and various VFMs. This allows different VFMs to collaboratively build a mutually-enhanced semantic space, guiding the learning of the compression model. Moreover, we introduce a dynamic trajectory-based inter-frame compression scheme, which first estimates the semantic trajectory based on the historical content, and then traverses along the trajectory to predict the future semantics as the coding context. This reduces the overall bitcost of the system, further improving the compression efficiency. Our approach outperforms previous coding methods on three mainstream tasks and six datasets.