QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

📄 arXiv: 2508.05197v1 📥 PDF

作者: Zhuohang Jiang, Pangjing Wu, Xu Yuan, Wenqi Fan, Qing Li

分类: cs.AI, cs.CL, cs.CV

发布日期: 2025-08-07

备注: The source code for our system is released in https://github.com/jzzzzh/QA-Dragon


💡 一句话要点

提出QA-Dragon,用于知识密集型视觉问答的查询感知动态RAG系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉问答 检索增强生成 多模态学习 知识图谱 动态检索

📋 核心要点

  1. 现有VQA的RAG方法孤立地检索文本或图像,无法处理需要多跳推理和最新知识的复杂查询。
  2. QA-Dragon通过领域路由和搜索路由,动态选择领域知识和检索策略,实现多模态、多轮和多跳推理。
  3. 在Meta CRAG-MM挑战赛上,QA-Dragon在答案准确性和知识重叠得分上显著优于基线模型。

📝 摘要(中文)

检索增强生成(RAG)通过将外部知识融入生成过程来缓解多模态大型语言模型(MLLM)中的幻觉问题,并且已成为知识密集型视觉问答(VQA)的广泛采用方法。然而,现有的RAG方法通常孤立地从文本或图像中检索,限制了它们解决需要多跳推理或最新事实知识的复杂查询的能力。为了解决这个限制,我们提出了QA-Dragon,一个用于知识密集型VQA的查询感知动态RAG系统。具体来说,QA-Dragon引入了一个领域路由来识别查询的主题领域以进行特定领域的推理,以及一个动态选择最佳检索策略的搜索路由。通过在混合设置中协调文本和图像搜索代理,我们的系统支持多模态、多轮和多跳推理,使其能够有效地处理复杂的VQA任务。我们在KDD Cup 2025的Meta CRAG-MM挑战赛上评估了我们的QA-Dragon,它显著增强了基础模型在具有挑战性的场景下的推理性能。我们的框架在答案准确性和知识重叠得分方面都取得了显著的改进,在单源任务上优于基线5.06%,在多源任务上优于基线6.35%,在多轮任务上优于基线5.03%。

🔬 方法详解

问题定义:现有知识密集型视觉问答(VQA)方法,特别是基于检索增强生成(RAG)的方法,通常独立地从文本或图像中检索信息。这种孤立的检索方式无法有效处理需要多跳推理、融合多模态信息以及利用最新事实知识的复杂VQA问题。因此,如何设计一种能够动态地、智能地检索相关知识的RAG系统,以提升复杂VQA任务的性能,是本文要解决的核心问题。

核心思路:QA-Dragon的核心思路是构建一个查询感知的动态RAG系统,该系统能够根据输入的VQA查询,动态地选择合适的知识领域和检索策略。通过引入领域路由和搜索路由,系统可以针对不同的查询类型,灵活地选择文本检索、图像检索或二者的结合,从而更有效地获取相关知识,提升VQA的准确性和可靠性。

技术框架:QA-Dragon的整体架构包含以下几个主要模块:1) 查询理解模块:分析输入的VQA查询,提取关键信息,例如问题类型、所需知识领域等。2) 领域路由模块:根据查询理解的结果,判断查询所属的知识领域,例如常识、科学、历史等。3) 搜索路由模块:根据查询和领域信息,动态选择最佳的检索策略,包括文本检索、图像检索或混合检索。4) 知识检索模块:根据选择的检索策略,从外部知识库中检索相关信息。5) 知识融合模块:将检索到的知识与原始图像和问题进行融合,形成增强的输入表示。6) 答案生成模块:利用多模态大型语言模型(MLLM)生成最终答案。

关键创新:QA-Dragon的关键创新在于其动态的RAG机制,具体体现在以下两个方面:1) 领域路由:能够根据查询内容自动识别相关的知识领域,从而缩小检索范围,提高检索效率。2) 搜索路由:能够根据查询和领域信息,动态选择最佳的检索策略,实现多模态信息的有效融合。这种动态的RAG机制使得QA-Dragon能够更好地适应不同类型的VQA问题,从而提升整体性能。

关键设计:领域路由模块可能采用分类模型,根据查询文本预测知识领域。搜索路由模块可能使用强化学习,根据历史经验学习最佳的检索策略。知识融合模块可能使用注意力机制,突出与查询相关的知识信息。具体的参数设置、损失函数和网络结构等细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

QA-Dragon在Meta CRAG-MM挑战赛上取得了显著的成果,在单源任务上优于基线5.06%,在多源任务上优于基线6.35%,在多轮任务上优于基线5.03%。这些结果表明,QA-Dragon能够有效地提升复杂VQA任务的性能,尤其是在需要多跳推理和融合多模态信息的场景下。

🎯 应用场景

QA-Dragon具有广泛的应用前景,可应用于智能客服、教育辅助、医疗诊断等领域。例如,在智能客服中,QA-Dragon可以帮助客服机器人更准确地回答用户提出的关于产品或服务的复杂问题。在教育领域,它可以辅助学生进行知识探索和问题解答。在医疗领域,它可以帮助医生快速检索相关医学知识,辅助诊断和治疗。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) has been introduced to mitigate hallucinations in Multimodal Large Language Models (MLLMs) by incorporating external knowledge into the generation process, and it has become a widely adopted approach for knowledge-intensive Visual Question Answering (VQA). However, existing RAG methods typically retrieve from either text or images in isolation, limiting their ability to address complex queries that require multi-hop reasoning or up-to-date factual knowledge. To address this limitation, we propose QA-Dragon, a Query-Aware Dynamic RAG System for Knowledge-Intensive VQA. Specifically, QA-Dragon introduces a domain router to identify the query's subject domain for domain-specific reasoning, along with a search router that dynamically selects optimal retrieval strategies. By orchestrating both text and image search agents in a hybrid setup, our system supports multimodal, multi-turn, and multi-hop reasoning, enabling it to tackle complex VQA tasks effectively. We evaluate our QA-Dragon on the Meta CRAG-MM Challenge at KDD Cup 2025, where it significantly enhances the reasoning performance of base models under challenging scenarios. Our framework achieves substantial improvements in both answer accuracy and knowledge overlap scores, outperforming baselines by 5.06% on the single-source task, 6.35% on the multi-source task, and 5.03% on the multi-turn task.