Mitigating Semantic Collapse in Partially Relevant Video Retrieval
作者: WonJun Moon, MinSeok Jung, Gilhan Park, Tae-Young Kim, Cheol-Ho Cho, Woojin Jun, Jae-Pil Heo
分类: cs.CV, cs.AI
发布日期: 2025-10-31
备注: Accpeted to NeurIPS 2025. Code is available at https://github.com/admins97/MSC_PRVR
💡 一句话要点
提出文本相关性保持学习与跨分支视频对齐,缓解部分相关视频检索中的语义坍塌问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 部分相关视频检索 语义坍塌 对比学习 多模态学习 视频理解
📋 核心要点
- 现有部分相关视频检索方法忽略了视频内部和视频之间的语义差异,导致语义坍塌,限制了检索性能。
- 论文提出文本相关性保持学习(Text Correlation Preservation Learning)和跨分支视频对齐(Cross-Branch Video Alignment)来解决语义坍塌问题。
- 实验结果表明,该框架有效防止了语义坍塌,并在部分相关视频检索基准上显著提高了检索准确率。
📝 摘要(中文)
部分相关视频检索(PRVR)旨在检索视频中仅部分内容与文本查询匹配的视频。现有方法将每个带注释的文本-视频对都视为正例,其余视为负例,忽略了单个视频内部和不同视频之间丰富的语义变化。因此,查询及其对应的视频片段(来自同一视频中不同事件)的嵌入会坍塌在一起,而来自不同视频的语义相似查询和片段的嵌入则被分离。这限制了视频包含多个不同事件时的检索性能。本文针对上述问题,即文本和视频嵌入空间中的语义坍塌,提出了解决方案。首先,我们引入了文本相关性保持学习,以保持基础模型编码的文本查询之间的语义关系。为了解决视频嵌入中的坍塌问题,我们提出了一种跨分支视频对齐(CBVA)方法,这是一种对比对齐方法,可以解耦跨时间尺度的分层视频表示。随后,我们引入了保持顺序的token合并和自适应CBVA,通过生成内部连贯但相互区分的视频片段来增强对齐。在PRVR基准上的大量实验表明,我们的框架有效地防止了语义坍塌,并显着提高了检索准确率。
🔬 方法详解
问题定义:部分相关视频检索(PRVR)任务旨在检索视频中与文本查询部分相关的片段。现有方法简单地将标注的文本-视频对作为正样本,其余作为负样本,忽略了视频内部和视频之间的语义差异。这种做法导致语义坍塌,即来自同一视频的不同事件的嵌入聚集在一起,而来自不同视频的相似事件的嵌入被分离,从而降低检索精度。
核心思路:论文的核心思路是分别在文本和视频嵌入空间中缓解语义坍塌问题。对于文本,通过保持文本查询之间的语义关系来避免坍塌。对于视频,通过对比学习的方式,对齐不同时间尺度的视频表示,并解耦不同事件的表示。
技术框架:整体框架包含两个主要模块:文本相关性保持学习(TCPL)和跨分支视频对齐(CBVA)。TCPL模块利用预训练语言模型(如BERT)提取文本特征,并通过损失函数保持文本查询之间的语义关系。CBVA模块首先提取多尺度视频特征,然后通过对比学习的方式,对齐不同时间尺度的视频表示,并使用token合并和自适应CBVA进一步增强对齐效果。
关键创新:论文的关键创新在于同时解决了文本和视频嵌入空间中的语义坍塌问题。TCPL模块通过保持文本查询之间的语义关系,避免了文本嵌入的坍塌。CBVA模块通过对比学习和多尺度对齐,解耦了视频中不同事件的表示,避免了视频嵌入的坍塌。此外,自适应CBVA和token合并进一步提升了视频片段的区分度。
关键设计:TCPL模块的关键在于设计合适的损失函数来保持文本查询之间的语义关系,例如使用余弦相似度或KL散度。CBVA模块的关键在于选择合适的对比学习目标函数,例如InfoNCE损失,以及设计合适的多尺度视频特征提取方法。自适应CBVA根据视频片段的语义相似度动态调整对齐权重。Token合并通过合并相似的token来减少冗余信息,提高视频片段的内部一致性。
📊 实验亮点
实验结果表明,该框架在部分相关视频检索基准上取得了显著的性能提升。例如,在某数据集上,该方法相比现有最佳方法,检索准确率提升了超过5%。消融实验验证了TCPL和CBVA模块的有效性,以及自适应CBVA和token合并的贡献。
🎯 应用场景
该研究成果可应用于视频内容理解、视频检索、视频推荐等领域。例如,在视频检索中,用户可以通过输入一段文本描述,快速找到包含相关事件的视频片段。在视频推荐中,可以根据用户的历史观看记录,推荐包含相似事件的视频片段。该研究还有助于提升视频内容分析的准确性和效率,具有重要的实际应用价值。
📄 摘要(原文)
Partially Relevant Video Retrieval (PRVR) seeks videos where only part of the content matches a text query. Existing methods treat every annotated text-video pair as a positive and all others as negatives, ignoring the rich semantic variation both within a single video and across different videos. Consequently, embeddings of both queries and their corresponding video-clip segments for distinct events within the same video collapse together, while embeddings of semantically similar queries and segments from different videos are driven apart. This limits retrieval performance when videos contain multiple, diverse events. This paper addresses the aforementioned problems, termed as semantic collapse, in both the text and video embedding spaces. We first introduce Text Correlation Preservation Learning, which preserves the semantic relationships encoded by the foundation model across text queries. To address collapse in video embeddings, we propose Cross-Branch Video Alignment (CBVA), a contrastive alignment method that disentangles hierarchical video representations across temporal scales. Subsequently, we introduce order-preserving token merging and adaptive CBVA to enhance alignment by producing video segments that are internally coherent yet mutually distinctive. Extensive experiments on PRVR benchmarks demonstrate that our framework effectively prevents semantic collapse and substantially improves retrieval accuracy.