RAVEN: Query-Guided Representation Alignment for Question Answering over Audio, Video, Embedded Sensors, and Natural Language

作者: Subrata Biswas, Mohammad Nur Hossain Khan, Bashima Islam

分类: cs.CL, cs.CV, cs.LG, cs.MM

发布日期: 2025-05-21 (更新: 2025-09-05)

🔗 代码/项目: GITHUB

💡 一句话要点

RAVEN：提出查询引导的表征对齐方法，用于多模态问答任务。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态问答 跨模态融合 查询引导 表征对齐 模态门控 传感器数据 鲁棒性 AVS-QA数据集

📋 核心要点

现有方法在多模态问答中易受模态不一致性干扰，如噪声或无关信息，导致性能下降。
RAVEN通过QuART模块，利用查询引导的跨模态门控机制，选择性地增强相关信号并抑制干扰。
AVS-QA数据集和实验表明，RAVEN在多个基准测试中显著优于现有方法，尤其是在模态损坏情况下。

📝 摘要（中文）

多模态问答(QA)通常需要识别与问题相关的视频、音频或传感器token。然而，模态不一致性很常见：离摄像头语音、背景噪声或视野外的运动常常误导平等对待所有流的融合模型。我们提出了RAVEN，一个统一的QA架构，其核心是QuART，一个查询条件下的跨模态门控模块，它为每个模态的每个token分配标量相关性分数，使模型能够在融合之前放大信息信号并抑制干扰。RAVEN通过一个三阶段流程进行训练，包括单模态预训练、查询对齐融合和面向不一致性的微调——每个阶段都针对多模态推理中的一个独特挑战：表征质量、跨模态相关性和模态不匹配的鲁棒性。为了支持训练和评估，我们发布了AVS-QA，一个包含30万个同步音频-视频-传感器流的数据集，并配有自动生成的问题-答案对。在七个多模态QA基准（包括以自我为中心和以外部为中心的任务）上的实验结果表明，与最先进的多模态大型语言模型相比，RAVEN的准确率分别提高了14.5%和8.0%。加入传感器数据可额外提升16.4%，并且该模型在模态损坏下仍然具有鲁棒性，性能优于SOTA基线50.23%。我们的代码和数据集可在https://github.com/BASHLab/RAVEN上找到。

🔬 方法详解

问题定义：论文旨在解决多模态问答中，由于不同模态信息的相关性差异以及模态噪声干扰，导致模型难以准确理解和回答问题的问题。现有方法通常平等对待所有模态的信息，容易受到无关信息的影响，降低问答准确率。

核心思路：论文的核心思路是利用问题（Query）来引导模型关注各个模态中与问题最相关的部分，通过跨模态门控机制，对不同模态的token赋予不同的权重，从而放大有用信息，抑制噪声信息。这种方法能够使模型更加关注关键信息，提高问答的准确性和鲁棒性。

技术框架：RAVEN的整体架构包含三个主要阶段：1) 单模态预训练：分别训练音频、视频和传感器数据的表征模型，提高各模态的表征质量。2) 查询对齐融合：利用QuART模块，根据问题对各模态的token进行加权，融合多模态信息。3) 面向不一致性的微调：通过引入模态损坏等方式，提高模型在模态不一致情况下的鲁棒性。

关键创新：论文最重要的技术创新点在于QuART（Query-conditioned cross-modal gating module）模块。QuART模块能够根据问题动态地调整各个模态token的重要性，实现更精细的跨模态融合。与现有方法中简单的加权平均或注意力机制相比，QuART模块能够更有效地过滤噪声信息，提取关键信息。

关键设计：QuART模块使用一个多层感知机（MLP）来计算每个模态token的相关性得分，输入包括问题表征和模态token表征。损失函数包括问答损失和对比学习损失，用于提高表征的区分性和对齐性。在面向不一致性的微调阶段，通过随机mask掉某些模态的信息，模拟模态损坏的情况，提高模型的鲁棒性。

🖼️ 关键图片

📊 实验亮点

RAVEN在七个多模态QA基准测试中取得了显著的性能提升，与最先进的多模态大型语言模型相比，准确率分别提高了14.5%和8.0%。加入传感器数据后，性能额外提升了16.4%。在模态损坏的情况下，RAVEN的性能优于SOTA基线50.23%，表明其具有很强的鲁棒性。

🎯 应用场景

RAVEN可应用于智能助手、机器人、监控系统等领域，提升其在复杂环境下的感知和理解能力。例如，在智能家居中，RAVEN可以结合摄像头、麦克风和传感器数据，准确理解用户的语音指令，并做出相应的响应。该研究对提升多模态信息融合的准确性和鲁棒性具有重要意义。

📄 摘要（原文）

Multimodal question answering (QA) often requires identifying which video, audio, or sensor tokens are relevant to the question. Yet modality disagreements are common: off-camera speech, background noise, or motion outside the field of view often mislead fusion models that weight all streams equally. We present RAVEN, a unified QA architecture whose core is QuART, a query-conditioned cross-modal gating module that assigns scalar relevance scores to each token across modalities, enabling the model to amplify informative signals and suppress distractors before fusion. RAVEN is trained through a three-stage pipeline comprising unimodal pretraining, query-aligned fusion, and disagreement-oriented fine-tuning -- each stage targeting a distinct challenge in multi-modal reasoning: representation quality, cross-modal relevance, and robustness to modality mismatch. To support training and evaluation, we release AVS-QA, a dataset of 300K synchronized Audio--Video-Sensor streams paired with automatically generated question-answer pairs. Experimental results on seven multi-modal QA benchmarks -- including egocentric and exocentric tasks -- show that RAVEN achieves up to 14.5\% and 8.0\% gains in accuracy compared to state-of-the-art multi-modal large language models, respectively. Incorporating sensor data provides an additional 16.4\% boost, and the model remains robust under modality corruption, outperforming SOTA baselines by 50.23\%. Our code and dataset are available at https://github.com/BASHLab/RAVEN.

RAVEN: Query-Guided Representation Alignment for Question Answering over Audio, Video, Embedded Sensors, and Natural Language

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理