Smart Routing for Multimodal Video Retrieval: When to Search What

作者: Kevin Dela Rosa

分类: cs.CV, cs.AI, cs.IR

发布日期: 2025-07-12

备注: Accepted to ICCV 2025 Multimodal Representation and Retrieval Workshop

💡 一句话要点

ModaRoute：基于LLM的多模态视频检索智能路由系统，优化检索效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态视频检索 智能路由 大型语言模型 GPT-4 计算效率优化

📋 核心要点

现有方法在多模态视频检索中存在计算成本高昂和信息遗漏的问题。
ModaRoute利用LLM分析查询意图，动态选择最优模态进行检索，减少计算开销。
实验表明，ModaRoute在降低41%计算开销的同时，保持了具有竞争力的检索效果。

📝 摘要（中文）

本文提出了一种名为ModaRoute的基于LLM的智能路由系统，用于动态选择多模态视频检索的最佳模态。虽然密集文本字幕可以达到75.9%的Recall@5，但它们需要昂贵的离线处理，并且会遗漏34%的视频片段中的关键视觉信息，这些信息是ASR无法捕捉到的场景文本。通过分析查询意图并预测信息需求，ModaRoute在实现60.9%的Recall@5的同时，将计算开销降低了41%。该方法使用GPT-4.1在ASR（语音）、OCR（文本）和视觉索引之间路由查询，平均每个查询使用1.78个模态，而穷举搜索则需要3.0个模态。在180万个视频片段上的评估表明，智能路由为扩展多模态检索系统提供了一种实用的解决方案，降低了基础设施成本，同时保持了实际部署中具有竞争力的有效性。

🔬 方法详解

问题定义：现有的多模态视频检索方法，例如同时使用语音、文本和视觉信息进行检索，虽然可以提高检索的准确率，但是计算成本非常高昂，尤其是在大规模视频数据集上。此外，仅仅依赖文本字幕（例如ASR）会丢失视频中的视觉文本信息（例如场景文字），导致检索结果不完整。因此，如何降低计算成本，同时保证检索的准确性和完整性，是本文要解决的核心问题。

核心思路：本文的核心思路是利用大型语言模型（LLM）来智能地路由查询，即根据查询的意图，动态地选择最相关的模态进行检索。这样可以避免对所有模态进行穷举搜索，从而降低计算成本。同时，LLM可以更好地理解查询的语义，从而选择更合适的模态，提高检索的准确率。

技术框架：ModaRoute的整体架构包含以下几个主要模块：1) 查询分析模块：使用GPT-4.1分析用户查询的意图，并预测需要哪些模态的信息。2) 模态选择模块：根据查询分析的结果，选择最相关的模态进行检索，包括ASR（语音）、OCR（文本）和视觉索引。3) 检索模块：使用选择的模态进行检索，并返回检索结果。4) 结果融合模块：将来自不同模态的检索结果进行融合，并返回最终的检索结果。

关键创新：ModaRoute的关键创新在于使用LLM进行智能路由。与传统的静态路由方法相比，ModaRoute可以根据查询的意图动态地选择模态，从而更好地适应不同的查询需求。此外，ModaRoute还可以利用LLM的语义理解能力，选择更合适的模态，提高检索的准确率。

关键设计：ModaRoute的关键设计包括：1) 使用GPT-4.1作为查询分析模块，利用其强大的语义理解能力。2) 设计了一种模态选择策略，根据查询分析的结果，选择最相关的模态。3) 设计了一种结果融合策略，将来自不同模态的检索结果进行融合，并返回最终的检索结果。具体的参数设置和损失函数等技术细节在论文中没有详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

ModaRoute在180万个视频片段上进行了评估，实验结果表明，ModaRoute在实现60.9%的Recall@5的同时，将计算开销降低了41%。与穷举搜索相比，ModaRoute平均每个查询只使用1.78个模态，而穷举搜索需要3.0个模态。这些结果表明，ModaRoute为扩展多模态检索系统提供了一种实用的解决方案，降低了基础设施成本，同时保持了具有竞争力的有效性。

🎯 应用场景

ModaRoute可应用于各种需要大规模视频检索的场景，例如视频搜索引擎、视频推荐系统、视频监控系统等。通过降低计算成本和提高检索效率，ModaRoute可以帮助用户更快地找到他们需要的视频信息，并为视频平台节省大量的计算资源。未来，ModaRoute可以进一步扩展到更多的模态，例如音频、视频内容等，从而实现更全面、更准确的视频检索。

📄 摘要（原文）

We introduce ModaRoute, an LLM-based intelligent routing system that dynamically selects optimal modalities for multimodal video retrieval. While dense text captions can achieve 75.9% Recall@5, they require expensive offline processing and miss critical visual information present in 34% of clips with scene text not captured by ASR. By analyzing query intent and predicting information needs, ModaRoute reduces computational overhead by 41% while achieving 60.9% Recall@5. Our approach uses GPT-4.1 to route queries across ASR (speech), OCR (text), and visual indices, averaging 1.78 modalities per query versus exhaustive 3.0 modality search. Evaluation on 1.8M video clips demonstrates that intelligent routing provides a practical solution for scaling multimodal retrieval systems, reducing infrastructure costs while maintaining competitive effectiveness for real-world deployment.

Smart Routing for Multimodal Video Retrieval: When to Search What

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理