To Be Multimodal or Not to Be: Query-Adaptive Audio-Visual Person Retrieval via Active Modality Detection
作者: Erfan Loweimi, Mengjie Qian, Kate Knill, Guanfeng Wu, Chi-Ho Chan, Abbas Haider, Muhammad Awan, Josef Kittler, Hui Wang, Mark Gales
分类: cs.CL, cs.AI, cs.CV, cs.IR, cs.LG, cs.MM, eess.AS
发布日期: 2026-06-04
备注: INTERSPEECH 2026
💡 一句话要点
提出查询自适应框架以解决多模态人检索问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态检索 活跃模态检测 跨模态一致性 视频分析 深度学习
📋 核心要点
- 现有方法在多模态人检索中面临挑战,缺失模态的得分融合会引入噪声,降低检索精度。
- 本文提出了一种查询自适应框架,通过检测活跃模态来优化检索过程,依赖于跨模态得分的一致性。
- 在实验中,该系统在BBC Rewind语料库上实现了94.2%的P@1,显著优于传统的单模态和固定融合方法。
📝 摘要(中文)
在从视频档案中通过声音和面孔检索人物时,系统是否应采用多模态?在现实的广播档案中,目标可能是听到但看不到,或者是看到但听不到,甚至两者皆有。将缺失模态的得分融合会引入噪声,降低精度。本文提出了一种查询自适应框架,通过跨模态得分一致性检测活跃模态。当两个模态均活跃时,由一个模态检索的文件在另一个模态上也会得分较高;当某一模态缺失时,这种一致性会崩溃。基于这些跨模态特征的分类器实现了89%的检测准确率。在包含超过12,000个广播视频的BBC Rewind语料库上,该自适应系统达到了94.2%的P@1,超越了仅基于说话者(82.9%)、仅基于面孔(93.4%)和固定融合(90.0%)的系统,恢复了与具有真实模态标签的oracle(96.6%)之间64%的差距。
🔬 方法详解
问题定义:本文旨在解决在多模态人检索中,缺失模态导致的噪声问题。现有方法在处理真实世界的广播档案时,往往无法有效应对目标的可见性和可听性不一致的情况。
核心思路:论文提出的查询自适应框架通过检测活跃模态来优化检索过程。该方法利用跨模态得分的一致性来判断模态的活跃性,从而避免在缺失模态时引入噪声。
技术框架:整体架构包括模态检测模块和检索模块。模态检测模块通过分析跨模态得分的一致性来判断当前活跃的模态,而检索模块则基于活跃模态进行有效的检索。
关键创新:最重要的技术创新在于提出了基于跨模态得分一致性的活跃模态检测机制。这一机制与传统的固定模态融合方法本质上不同,能够动态适应输入查询的特性。
关键设计:在设计中,采用了特定的损失函数来优化模态检测的准确性,并使用了深度学习网络结构来提取跨模态特征,确保分类器的高效性和准确性。实验中实现了89%的检测准确率。
🖼️ 关键图片
📊 实验亮点
实验结果显示,该自适应系统在BBC Rewind语料库上达到了94.2%的P@1,显著优于仅基于说话者的82.9%、仅基于面孔的93.4%以及固定融合的90.0%。该系统恢复了与真实模态标签的oracle(96.6%)之间64%的差距,展示了其优越性。
🎯 应用场景
该研究的潜在应用领域包括视频监控、媒体检索和人机交互等场景。通过提高多模态人检索的准确性,能够在实际应用中显著提升用户体验和检索效率,具有重要的实际价值和未来影响。
📄 摘要(原文)
When retrieving a person from a video archive by voice and face, should the system be multimodal or not? In real-world broadcast archives, unlike curated benchmarks, a target may be heard but unseen, seen but unheard, or both. Fusing scores from an absent modality injects noise, degrading precision below the best unimodal system. We propose a query-adaptive framework that detects active modalities via cross-modal score consistency: when both modalities are active, files retrieved by one also score highly on the other; this agreement breaks down when a modality is absent. Classifiers driven by these cross-modal features achieve 89% detection accuracy. On the BBC Rewind corpus (with over 12,000 broadcast videos) the adaptive system attains 94.2% P@1, outperforming speaker-only (82.9%), face-only (93.4%), and fixed fusion (90.0%), recovering 64% of the gap to an oracle with ground-truth modality labels (96.6%).