Mitigating Semantic Collapse in Partially Relevant Video Retrieval

📄 arXiv: 2510.27432v1 📥 PDF

作者: WonJun Moon, MinSeok Jung, Gilhan Park, Tae-Young Kim, Cheol-Ho Cho, Woojin Jun, Jae-Pil Heo

分类: cs.CV, cs.AI

发布日期: 2025-10-31

备注: Accpeted to NeurIPS 2025. Code is available at https://github.com/admins97/MSC_PRVR


💡 一句话要点

提出文本相关性保持学习与跨分支视频对齐,缓解部分相关视频检索中的语义坍塌问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 部分相关视频检索 语义坍塌 对比学习 视频理解 多模态学习

📋 核心要点

  1. 现有部分相关视频检索方法忽略了视频内部和视频之间的语义差异,导致查询和视频片段的嵌入发生语义坍塌。
  2. 论文提出文本相关性保持学习(TCP)和跨分支视频对齐(CBVA)方法,分别解决文本和视频嵌入空间的语义坍塌问题。
  3. 实验结果表明,该框架有效防止了语义坍塌,并在部分相关视频检索任务上显著提高了检索精度。

📝 摘要(中文)

部分相关视频检索(PRVR)旨在检索视频中仅部分内容与文本查询匹配的视频。现有方法将每个带注释的文本-视频对视为正例,其余视为负例,忽略了单个视频内部和不同视频之间的丰富语义变化。因此,查询及其对应的视频片段的嵌入会发生语义坍塌,导致同一视频内不同事件的嵌入聚集,而来自不同视频的语义相似查询和片段的嵌入被推开。这限制了视频包含多个不同事件时的检索性能。本文针对文本和视频嵌入空间中被称为语义坍塌的问题,提出了文本相关性保持学习,以保持基础模型编码的文本查询之间的语义关系。为了解决视频嵌入中的坍塌,我们提出了一种跨分支视频对齐(CBVA)方法,该方法解耦了跨时间尺度的分层视频表示。随后,我们引入了保持顺序的token合并和自适应CBVA,通过生成内部连贯但相互区分的视频片段来增强对齐。在PRVR基准上的大量实验表明,我们的框架有效地防止了语义坍塌,并显著提高了检索精度。

🔬 方法详解

问题定义:部分相关视频检索(PRVR)任务旨在检索视频中与文本查询部分相关的片段。现有方法简单地将标注的文本-视频对作为正样本,其余作为负样本,忽略了视频内部和视频之间的语义差异。这种做法导致语义坍塌,即同一视频内的不同事件的嵌入聚集在一起,而来自不同视频的语义相似片段的嵌入被推开,从而限制了检索性能。

核心思路:论文的核心思路是分别在文本和视频嵌入空间中缓解语义坍塌。对于文本,通过保持文本查询之间的语义关系来防止坍塌。对于视频,通过解耦跨时间尺度的分层视频表示,并对齐不同分支的视频片段来缓解坍塌。

技术框架:整体框架包含文本编码器和视频编码器。文本编码器使用预训练的语言模型(如BERT)提取文本特征,并使用文本相关性保持学习(TCP)模块来保持文本查询之间的语义关系。视频编码器提取视频片段的特征,并使用跨分支视频对齐(CBVA)模块来对齐不同时间尺度的视频表示。最后,使用相似度度量函数计算文本和视频片段之间的相似度,并进行检索。

关键创新:论文的关键创新点在于提出了文本相关性保持学习(TCP)和跨分支视频对齐(CBVA)两种方法,分别解决了文本和视频嵌入空间的语义坍塌问题。TCP通过保持文本查询之间的语义关系,使得语义相似的查询在嵌入空间中更接近。CBVA通过解耦跨时间尺度的视频表示,并对齐不同分支的视频片段,使得视频片段的表示更加具有区分性。

关键设计:文本相关性保持学习(TCP)模块使用对比学习损失,鼓励语义相似的文本查询的嵌入更接近。跨分支视频对齐(CBVA)模块使用对比学习损失,鼓励同一视频片段在不同时间尺度的表示更接近,同时推开不同视频片段的表示。此外,论文还提出了保持顺序的token合并和自适应CBVA,以进一步增强对齐效果。损失函数的设计是关键,平衡了对齐和区分性。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,该框架在多个部分相关视频检索基准数据集上取得了显著的性能提升。例如,在某数据集上,该方法相比现有最佳方法提高了5%以上的检索精度。消融实验验证了文本相关性保持学习(TCP)和跨分支视频对齐(CBVA)模块的有效性。可视化结果表明,该方法能够有效缓解语义坍塌问题,使得嵌入空间中的表示更加具有区分性。

🎯 应用场景

该研究成果可应用于视频内容理解、视频搜索、视频推荐等领域。例如,在视频搜索中,用户可以通过输入一段文本描述,快速找到包含相关内容的视频片段。在视频推荐中,可以根据用户的历史观看记录,推荐包含用户感兴趣事件的视频片段。该研究还有助于提升视频内容分析的准确性和效率,为智能视频应用提供更强大的技术支持。

📄 摘要(原文)

Partially Relevant Video Retrieval (PRVR) seeks videos where only part of the content matches a text query. Existing methods treat every annotated text-video pair as a positive and all others as negatives, ignoring the rich semantic variation both within a single video and across different videos. Consequently, embeddings of both queries and their corresponding video-clip segments for distinct events within the same video collapse together, while embeddings of semantically similar queries and segments from different videos are driven apart. This limits retrieval performance when videos contain multiple, diverse events. This paper addresses the aforementioned problems, termed as semantic collapse, in both the text and video embedding spaces. We first introduce Text Correlation Preservation Learning, which preserves the semantic relationships encoded by the foundation model across text queries. To address collapse in video embeddings, we propose Cross-Branch Video Alignment (CBVA), a contrastive alignment method that disentangles hierarchical video representations across temporal scales. Subsequently, we introduce order-preserving token merging and adaptive CBVA to enhance alignment by producing video segments that are internally coherent yet mutually distinctive. Extensive experiments on PRVR benchmarks demonstrate that our framework effectively prevents semantic collapse and substantially improves retrieval accuracy.