RAVEN: Query-Guided Representation Alignment for Question Answering over Audio, Video, Embedded Sensors, and Natural Language
作者: Subrata Biswas, Mohammad Nur Hossain Khan, Bashima Islam
分类: cs.CL, cs.CV, cs.LG, cs.MM
发布日期: 2025-05-21 (更新: 2025-09-05)
🔗 代码/项目: GITHUB
💡 一句话要点
RAVEN:提出查询引导的表征对齐方法,用于多模态问答任务。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态问答 跨模态融合 查询引导 表征对齐 模态门控 传感器数据 鲁棒性 AVS-QA数据集
📋 核心要点
- 现有方法在多模态问答中易受模态不一致性干扰,如噪声或无关信息,导致性能下降。
- RAVEN通过QuART模块,利用查询引导的跨模态门控机制,选择性地增强相关信号并抑制干扰。
- AVS-QA数据集和实验表明,RAVEN在多个基准测试中显著优于现有方法,尤其是在模态损坏情况下。
📝 摘要(中文)
多模态问答(QA)通常需要识别与问题相关的视频、音频或传感器token。然而,模态不一致性很常见:离摄像头语音、背景噪声或视野外的运动常常误导平等对待所有流的融合模型。我们提出了RAVEN,一个统一的QA架构,其核心是QuART,一个查询条件下的跨模态门控模块,它为每个模态的每个token分配标量相关性分数,使模型能够在融合之前放大信息信号并抑制干扰。RAVEN通过一个三阶段流程进行训练,包括单模态预训练、查询对齐融合和面向不一致性的微调——每个阶段都针对多模态推理中的一个独特挑战:表征质量、跨模态相关性和模态不匹配的鲁棒性。为了支持训练和评估,我们发布了AVS-QA,一个包含30万个同步音频-视频-传感器流的数据集,并配有自动生成的问题-答案对。在七个多模态QA基准(包括以自我为中心和以外部为中心的任务)上的实验结果表明,与最先进的多模态大型语言模型相比,RAVEN的准确率分别提高了14.5%和8.0%。加入传感器数据可额外提升16.4%,并且该模型在模态损坏下仍然具有鲁棒性,性能优于SOTA基线50.23%。我们的代码和数据集可在https://github.com/BASHLab/RAVEN上找到。
🔬 方法详解
问题定义:论文旨在解决多模态问答中,由于不同模态信息的相关性差异以及模态噪声干扰,导致模型难以准确理解和回答问题的问题。现有方法通常平等对待所有模态的信息,容易受到无关信息的影响,降低问答准确率。
核心思路:论文的核心思路是利用问题(Query)来引导模型关注各个模态中与问题最相关的部分,通过跨模态门控机制,对不同模态的token赋予不同的权重,从而放大有用信息,抑制噪声信息。这种方法能够使模型更加关注关键信息,提高问答的准确性和鲁棒性。
技术框架:RAVEN的整体架构包含三个主要阶段:1) 单模态预训练:分别训练音频、视频和传感器数据的表征模型,提高各模态的表征质量。2) 查询对齐融合:利用QuART模块,根据问题对各模态的token进行加权,融合多模态信息。3) 面向不一致性的微调:通过引入模态损坏等方式,提高模型在模态不一致情况下的鲁棒性。
关键创新:论文最重要的技术创新点在于QuART(Query-conditioned cross-modal gating module)模块。QuART模块能够根据问题动态地调整各个模态token的重要性,实现更精细的跨模态融合。与现有方法中简单的加权平均或注意力机制相比,QuART模块能够更有效地过滤噪声信息,提取关键信息。
关键设计:QuART模块使用一个多层感知机(MLP)来计算每个模态token的相关性得分,输入包括问题表征和模态token表征。损失函数包括问答损失和对比学习损失,用于提高表征的区分性和对齐性。在面向不一致性的微调阶段,通过随机mask掉某些模态的信息,模拟模态损坏的情况,提高模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
RAVEN在七个多模态QA基准测试中取得了显著的性能提升,与最先进的多模态大型语言模型相比,准确率分别提高了14.5%和8.0%。加入传感器数据后,性能额外提升了16.4%。在模态损坏的情况下,RAVEN的性能优于SOTA基线50.23%,表明其具有很强的鲁棒性。
🎯 应用场景
RAVEN可应用于智能助手、机器人、监控系统等领域,提升其在复杂环境下的感知和理解能力。例如,在智能家居中,RAVEN可以结合摄像头、麦克风和传感器数据,准确理解用户的语音指令,并做出相应的响应。该研究对提升多模态信息融合的准确性和鲁棒性具有重要意义。
📄 摘要(原文)
Multimodal question answering (QA) often requires identifying which video, audio, or sensor tokens are relevant to the question. Yet modality disagreements are common: off-camera speech, background noise, or motion outside the field of view often mislead fusion models that weight all streams equally. We present RAVEN, a unified QA architecture whose core is QuART, a query-conditioned cross-modal gating module that assigns scalar relevance scores to each token across modalities, enabling the model to amplify informative signals and suppress distractors before fusion. RAVEN is trained through a three-stage pipeline comprising unimodal pretraining, query-aligned fusion, and disagreement-oriented fine-tuning -- each stage targeting a distinct challenge in multi-modal reasoning: representation quality, cross-modal relevance, and robustness to modality mismatch. To support training and evaluation, we release AVS-QA, a dataset of 300K synchronized Audio--Video-Sensor streams paired with automatically generated question-answer pairs. Experimental results on seven multi-modal QA benchmarks -- including egocentric and exocentric tasks -- show that RAVEN achieves up to 14.5\% and 8.0\% gains in accuracy compared to state-of-the-art multi-modal large language models, respectively. Incorporating sensor data provides an additional 16.4\% boost, and the model remains robust under modality corruption, outperforming SOTA baselines by 50.23\%. Our code and dataset are available at https://github.com/BASHLab/RAVEN.