Smart Routing for Multimodal Video Retrieval: When to Search What

📄 arXiv: 2507.13374v1 📥 PDF

作者: Kevin Dela Rosa

分类: cs.CV, cs.AI, cs.IR

发布日期: 2025-07-12

备注: Accepted to ICCV 2025 Multimodal Representation and Retrieval Workshop


💡 一句话要点

ModaRoute:基于LLM的多模态视频检索智能路由系统,优化检索效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态视频检索 智能路由 大型语言模型 GPT-4 计算效率优化

📋 核心要点

  1. 现有方法在多模态视频检索中存在计算成本高昂和信息遗漏的问题。
  2. ModaRoute利用LLM分析查询意图,动态选择最优模态进行检索,减少计算开销。
  3. 实验表明,ModaRoute在降低41%计算开销的同时,保持了具有竞争力的检索效果。

📝 摘要(中文)

本文提出了一种名为ModaRoute的基于LLM的智能路由系统,用于动态选择多模态视频检索的最佳模态。虽然密集文本字幕可以达到75.9%的Recall@5,但它们需要昂贵的离线处理,并且会遗漏34%的视频片段中的关键视觉信息,这些信息是ASR无法捕捉到的场景文本。通过分析查询意图并预测信息需求,ModaRoute在实现60.9%的Recall@5的同时,将计算开销降低了41%。该方法使用GPT-4.1在ASR(语音)、OCR(文本)和视觉索引之间路由查询,平均每个查询使用1.78个模态,而穷举搜索则需要3.0个模态。在180万个视频片段上的评估表明,智能路由为扩展多模态检索系统提供了一种实用的解决方案,降低了基础设施成本,同时保持了实际部署中具有竞争力的有效性。

🔬 方法详解

问题定义:现有的多模态视频检索方法,例如同时使用语音、文本和视觉信息进行检索,虽然可以提高检索的准确率,但是计算成本非常高昂,尤其是在大规模视频数据集上。此外,仅仅依赖文本字幕(例如ASR)会丢失视频中的视觉文本信息(例如场景文字),导致检索结果不完整。因此,如何降低计算成本,同时保证检索的准确性和完整性,是本文要解决的核心问题。

核心思路:本文的核心思路是利用大型语言模型(LLM)来智能地路由查询,即根据查询的意图,动态地选择最相关的模态进行检索。这样可以避免对所有模态进行穷举搜索,从而降低计算成本。同时,LLM可以更好地理解查询的语义,从而选择更合适的模态,提高检索的准确率。

技术框架:ModaRoute的整体架构包含以下几个主要模块:1) 查询分析模块:使用GPT-4.1分析用户查询的意图,并预测需要哪些模态的信息。2) 模态选择模块:根据查询分析的结果,选择最相关的模态进行检索,包括ASR(语音)、OCR(文本)和视觉索引。3) 检索模块:使用选择的模态进行检索,并返回检索结果。4) 结果融合模块:将来自不同模态的检索结果进行融合,并返回最终的检索结果。

关键创新:ModaRoute的关键创新在于使用LLM进行智能路由。与传统的静态路由方法相比,ModaRoute可以根据查询的意图动态地选择模态,从而更好地适应不同的查询需求。此外,ModaRoute还可以利用LLM的语义理解能力,选择更合适的模态,提高检索的准确率。

关键设计:ModaRoute的关键设计包括:1) 使用GPT-4.1作为查询分析模块,利用其强大的语义理解能力。2) 设计了一种模态选择策略,根据查询分析的结果,选择最相关的模态。3) 设计了一种结果融合策略,将来自不同模态的检索结果进行融合,并返回最终的检索结果。具体的参数设置和损失函数等技术细节在论文中没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ModaRoute在180万个视频片段上进行了评估,实验结果表明,ModaRoute在实现60.9%的Recall@5的同时,将计算开销降低了41%。与穷举搜索相比,ModaRoute平均每个查询只使用1.78个模态,而穷举搜索需要3.0个模态。这些结果表明,ModaRoute为扩展多模态检索系统提供了一种实用的解决方案,降低了基础设施成本,同时保持了具有竞争力的有效性。

🎯 应用场景

ModaRoute可应用于各种需要大规模视频检索的场景,例如视频搜索引擎、视频推荐系统、视频监控系统等。通过降低计算成本和提高检索效率,ModaRoute可以帮助用户更快地找到他们需要的视频信息,并为视频平台节省大量的计算资源。未来,ModaRoute可以进一步扩展到更多的模态,例如音频、视频内容等,从而实现更全面、更准确的视频检索。

📄 摘要(原文)

We introduce ModaRoute, an LLM-based intelligent routing system that dynamically selects optimal modalities for multimodal video retrieval. While dense text captions can achieve 75.9% Recall@5, they require expensive offline processing and miss critical visual information present in 34% of clips with scene text not captured by ASR. By analyzing query intent and predicting information needs, ModaRoute reduces computational overhead by 41% while achieving 60.9% Recall@5. Our approach uses GPT-4.1 to route queries across ASR (speech), OCR (text), and visual indices, averaging 1.78 modalities per query versus exhaustive 3.0 modality search. Evaluation on 1.8M video clips demonstrates that intelligent routing provides a practical solution for scaling multimodal retrieval systems, reducing infrastructure costs while maintaining competitive effectiveness for real-world deployment.