Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering

📄 arXiv: 2409.07331v2 📥 PDF

作者: Weixi Weng, Jieming Zhu, Xiaojun Meng, Hao Zhang, Rui Zhang, Chun Yuan

分类: cs.CV, cs.LG

发布日期: 2024-09-11 (更新: 2025-02-01)


💡 一句话要点

提出RACC,通过压缩上下文提升知识型视觉问答的效率与性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉问答 知识型VQA 多模态学习 上下文压缩 推理效率

📋 核心要点

  1. 现有知识型视觉问答方法依赖大量外部知识,导致输入token过多,推理效率显著降低。
  2. RACC通过学习压缩和聚合检索到的知识,生成紧凑的KV缓存,以调制下游的MLLM,实现高效推理。
  3. RACC在OK-VQA上取得了63.92%的SOTA性能,并显著降低了22.0%-59.7%的推理延迟。

📝 摘要(中文)

多模态大型语言模型(MLLM)在视觉问答(VQA)方面表现出强大的性能。然而,在知识型视觉问答(KB-VQA)中,MLLM可能缺乏回答问题所需的专业领域知识,需要从外部知识源检索必要的信息。以往的研究,如RAVQA-v2,侧重于利用尽可能多的输入信息,例如基于图像的文本描述和检索到的知识,以提高性能,但它们都忽略了一个问题:随着输入token数量的增加,推理效率显著降低,这与实际应用的需求相矛盾。为了解决这个问题,我们提出了具有压缩上下文的检索增强MLLM(RACC)。RACC学习压缩和聚合给定图像-问题对的检索知识,生成紧凑的键值(KV)缓存形式的调制,以适应下游冻结的MLLM,从而实现有效和高效的推理。RACC在OK-VQA上实现了63.92%的最先进(SOTA)性能。此外,与著名的RAVQA-v2相比,它显著降低了22.0%-59.7%的推理延迟。大量的实验表明RACC具有广泛的适用性。它与各种现成的MLLM兼容,并且还可以处理包括文本和多模态文档在内的不同知识源。

🔬 方法详解

问题定义:论文旨在解决知识型视觉问答(KB-VQA)中,由于需要检索大量外部知识导致输入token过多,从而降低推理效率的问题。现有方法如RAVQA-v2虽然性能良好,但忽略了推理效率,难以满足实际应用需求。

核心思路:论文的核心思路是学习如何压缩和聚合检索到的知识,生成一个紧凑的上下文表示,即KV缓存。这个KV缓存可以有效地调制下游的MLLM,使其能够利用外部知识,同时避免了直接输入大量token导致的效率下降。

技术框架:RACC的整体框架包含以下几个主要模块:1) 知识检索模块:从外部知识源检索相关信息。2) 上下文压缩模块:学习压缩和聚合检索到的知识,生成KV缓存。3) MLLM调制模块:利用KV缓存调制下游的冻结MLLM,进行视觉问答。整个流程是先检索知识,然后压缩知识,最后利用压缩后的知识增强MLLM的推理能力。

关键创新:RACC的关键创新在于学习压缩上下文,生成KV缓存。与直接将检索到的知识输入MLLM不同,RACC通过学习的方式,提取关键信息并进行压缩,从而显著减少了输入token的数量,提高了推理效率。这种方法可以有效地平衡性能和效率。

关键设计:上下文压缩模块的具体实现细节未知,但可以推测其可能使用了注意力机制、pooling操作或其他压缩算法。KV缓存的大小和结构也是关键的设计参数,需要根据具体的任务和MLLM进行调整。损失函数的设计也至关重要,需要保证压缩后的上下文能够有效地调制MLLM,提高问答准确率。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

RACC在OK-VQA数据集上取得了63.92%的SOTA性能,超越了现有的方法。更重要的是,RACC显著降低了推理延迟,与RAVQA-v2相比,降低了22.0%-59.7%。实验结果表明,RACC在提高性能的同时,也显著提升了推理效率,具有很强的实用价值。

🎯 应用场景

RACC可应用于各种需要利用外部知识的视觉问答场景,例如智能客服、教育辅助、医疗诊断等。通过高效地利用外部知识,RACC可以提高问答的准确性和效率,为用户提供更好的体验。未来,RACC还可以扩展到其他多模态任务,例如图像描述、视频理解等。

📄 摘要(原文)

Multimodal large language models (MLLMs) have demonstrated great performance on visual question answering (VQA). When it comes to knowledge-based Visual Question Answering (KB-VQA), MLLMs may lack the specialized domain knowledge needed to answer questions, necessitating the retrieval of necessary information from external knowledge sources. Previous works like Retrival-Augmented VQA-v2 (RAVQA-v2) focus on utilizing as much input information, such as image-based textual descriptions and retrieved knowledge, as possible to improve performance, but they all overlook the issue that with the number of input tokens increasing, inference efficiency significantly decreases, which contradicts the demands of practical applications. To address this issue, we propose \textbf{R}etrieval-\textbf{A}ugmented MLLMs with Compressed Contexts (RACC). RACC learns to compress and aggregate retrieved knowledge for a given image-question pair, generating a compact modulation in the form of Key-Value (KV) cache to adapt the downstream frozen MLLM, thereby achieving effective and efficient inference. RACC achieves a state-of-the-art (SOTA) performance of 63.92\% on OK-VQA. Moreover, it significantly reduces inference latency by 22.0\%-59.7\% compared to the prominent RAVQA-v2. Abundant experiments show RACC's broad applicability. It is compatible with various off-the-shelf MLLMs and can also handle different knowledge sources including textual and multimodal documents.