Unified Interactive Multimodal Moment Retrieval via Cascaded Embedding-Reranking and Temporal-Aware Score Fusion
作者: Toan Le Ngo Thanh, Phat Ha Huu, Tan Nguyen Dang Duy, Thong Nguyen Le Minh, Anh Nguyen Nhu Tinh
分类: cs.CV, cs.AI, cs.IR
发布日期: 2025-12-15
备注: Accepted at AAAI Workshop 2026
💡 一句话要点
提出级联嵌入重排序和时序感知融合的统一交互式多模态片段检索系统
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态检索 视频片段检索 跨模态融合 时序建模 查询理解
📋 核心要点
- 现有片段检索方法在处理跨模态噪声和模糊查询时,固定权重融合策略表现不佳。
- 论文提出级联嵌入重排序和时序感知评分机制,以构建连贯的事件序列,并自适应融合模态信息。
- 通过Agent引导的查询分解,系统能够自动解释模糊查询,并动态调整融合策略,提升检索效果。
📝 摘要(中文)
视频内容的爆炸式增长对高效的多模态片段检索系统提出了迫切需求。然而,现有方法面临三个关键挑战:(1)固定权重融合策略在跨模态噪声和模糊查询下失效;(2)时序建模难以捕捉连贯的事件序列,同时惩罚不切实际的间隙;(3)系统需要手动选择模态,降低了可用性。我们提出了一个统一的多模态片段检索系统,包含三个关键创新。首先,一个级联双嵌入管道结合了BEIT-3和SigLIP用于广泛检索,并通过基于BLIP-2的重排序进行优化,以平衡召回率和精度。其次,一种时序感知评分机制通过波束搜索将指数衰减惩罚应用于大的时间间隙,构建连贯的事件序列,而不是孤立的帧。第三,Agent引导的查询分解(GPT-4o)自动解释模糊查询,将其分解为模态特定的子查询(视觉/OCR/ASR),并执行自适应评分融合,从而消除了手动模态选择。定性分析表明,我们的系统有效地处理模糊查询,检索时间上连贯的序列,并动态地调整融合策略,从而提升了交互式片段搜索能力。
🔬 方法详解
问题定义:论文旨在解决多模态视频片段检索中,现有方法在处理模糊查询、模态噪声以及时序建模方面的不足。现有方法通常采用固定权重的融合策略,无法有效应对不同模态信息质量差异大的情况,且难以捕捉视频中连贯的事件序列。此外,手动选择模态增加了用户的使用负担。
核心思路:论文的核心思路是构建一个统一的多模态片段检索系统,通过级联嵌入重排序来提升检索的准确性和召回率,利用时序感知评分机制来建模视频中的事件序列,并采用Agent引导的查询分解来自动处理模糊查询和自适应融合模态信息。这样可以有效应对模态噪声、模糊查询以及时序建模的挑战。
技术框架:该系统主要包含三个阶段:(1) 级联双嵌入检索阶段,利用BEIT-3和SigLIP进行初步检索,然后使用BLIP-2进行重排序;(2) 时序感知评分阶段,通过波束搜索和指数衰减惩罚来构建连贯的事件序列;(3) Agent引导的查询分解和自适应融合阶段,利用GPT-4o将模糊查询分解为模态特定的子查询,并根据子查询的结果进行自适应评分融合。
关键创新:该论文的关键创新在于:(1) 提出了级联双嵌入重排序框架,有效平衡了检索的召回率和精度;(2) 设计了时序感知评分机制,能够捕捉视频中连贯的事件序列,并惩罚不合理的时间间隙;(3) 引入了Agent引导的查询分解方法,实现了自动的模态选择和自适应的模态融合。与现有方法相比,该系统能够更好地处理模糊查询和模态噪声,并提升了检索的准确性和用户体验。
关键设计:在级联双嵌入检索阶段,BEIT-3和SigLIP用于提取视频和文本的全局特征,BLIP-2则用于更精细的跨模态匹配。时序感知评分机制采用指数衰减函数来惩罚大的时间间隙,衰减系数需要根据具体数据集进行调整。Agent引导的查询分解使用GPT-4o进行查询理解和分解,自适应融合策略则根据各个模态子查询的置信度进行动态调整。
🖼️ 关键图片
📊 实验亮点
论文通过定性分析展示了系统在处理模糊查询、检索时间上连贯的序列以及动态调整融合策略方面的有效性。虽然摘要中没有提供具体的性能数据,但强调了系统在提升交互式片段搜索能力方面的优势。Agent引导的查询分解和自适应融合策略是提升检索效果的关键。
🎯 应用场景
该研究成果可应用于智能视频搜索、视频内容分析、视频推荐等领域。例如,用户可以通过自然语言描述在海量视频库中快速找到目标片段,或者系统可以根据用户的历史观看行为自动推荐相关的视频内容。该技术在教育、娱乐、安防等领域具有广泛的应用前景。
📄 摘要(原文)
The exponential growth of video content has created an urgent need for efficient multimodal moment retrieval systems. However, existing approaches face three critical challenges: (1) fixed-weight fusion strategies fail across cross modal noise and ambiguous queries, (2) temporal modeling struggles to capture coherent event sequences while penalizing unrealistic gaps, and (3) systems require manual modality selection, reducing usability. We propose a unified multimodal moment retrieval system with three key innovations. First, a cascaded dual-embedding pipeline combines BEIT-3 and SigLIP for broad retrieval, refined by BLIP-2 based reranking to balance recall and precision. Second, a temporal-aware scoring mechanism applies exponential decay penalties to large temporal gaps via beam search, constructing coherent event sequences rather than isolated frames. Third, Agent-guided query decomposition (GPT-4o) automatically interprets ambiguous queries, decomposes them into modality specific sub-queries (visual/OCR/ASR), and performs adaptive score fusion eliminating manual modality selection. Qualitative analysis demonstrates that our system effectively handles ambiguous queries, retrieves temporally coherent sequences, and dynamically adapts fusion strategies, advancing interactive moment search capabilities.