Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

作者: Yuyang Hong, Jiaqi Gu, Qi Yang, Lubin Fan, Yue Wu, Ying Wang, Kun Ding, Shiming Xiang, Jieping Ye

分类: cs.CV, cs.AI

发布日期: 2025-10-16 (更新: 2025-10-20)

备注: Accepted by NeurIPS 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出Wiki-PRF框架，解决知识库VQA中多模态查询质量和检索结果相关性问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 知识库视觉问答 多模态融合 检索增强生成 强化学习 视觉工具 知识检索 相关性过滤

📋 核心要点

现有KB-VQA方法在多模态查询质量和检索结果相关性方面存在不足，影响了答案的准确性。
Wiki-PRF框架通过处理、检索和过滤三个阶段，提升多模态查询质量和检索结果的相关性。
实验结果表明，Wiki-PRF在E-VQA和InfoSeek数据集上取得了显著的性能提升，达到SOTA水平。

📝 摘要（中文）

基于知识的视觉问答(KB-VQA)要求视觉语言模型(VLMs)将视觉理解与外部知识检索相结合。检索增强生成(RAG)通过结合知识库查询在该任务中取得了显著进展，但仍然难以应对多模态查询的质量和检索结果的相关性。为了克服这些挑战，我们提出了一种新的三阶段方法，称为Wiki-PRF，包括处理(Processing)、检索(Retrieval)和过滤(Filtering)阶段。处理阶段动态地调用视觉工具来提取精确的多模态信息以进行检索。检索阶段集成了视觉和文本特征以实现多模态知识检索。过滤阶段对检索结果执行相关性过滤和集中。为此，我们引入了一个视觉语言模型，该模型通过强化学习的方式，以答案准确性和格式一致性作为奖励信号进行训练。这增强了模型的推理能力、用于准确查询的工具调用以及对不相关内容的过滤。在基准数据集(E-VQA和InfoSeek)上的实验表明，答案质量有了显著提高(36.0和42.8)，实现了最先进的性能。

🔬 方法详解

问题定义：论文旨在解决知识库视觉问答(KB-VQA)任务中，现有方法在处理复杂视觉信息和进行有效知识检索时遇到的问题。具体来说，现有方法难以生成高质量的多模态查询，并且检索到的知识往往包含大量不相关信息，导致答案质量下降。现有方法的痛点在于如何准确提取视觉信息，并将其与文本信息有效融合，从而实现更精准的知识检索和过滤。

核心思路：论文的核心思路是提出一个三阶段框架Wiki-PRF，分别负责多模态信息的处理、知识检索和结果过滤。通过动态调用视觉工具提取精确信息，融合视觉和文本特征进行检索，并利用强化学习训练的模型进行相关性过滤，从而提高答案的准确性和一致性。

技术框架：Wiki-PRF框架包含三个主要阶段： 1. 处理(Processing)阶段：动态调用视觉工具，例如目标检测、OCR等，提取图像中的关键信息，生成更精确的多模态查询。 2. 检索(Retrieval)阶段：融合视觉和文本特征，利用多模态知识库进行检索，获取与问题和图像相关的知识片段。 3. 过滤(Filtering)阶段：利用强化学习训练的视觉语言模型，对检索到的知识片段进行相关性过滤和集中，去除不相关的信息，保留最相关的知识。

关键创新：论文的关键创新在于： 1. 提出了一种动态调用视觉工具的处理阶段，能够更准确地提取图像中的信息，生成高质量的多模态查询。 2. 利用强化学习训练视觉语言模型，以答案准确性和格式一致性作为奖励信号，增强了模型对检索结果的过滤能力。 3. 整体框架将多模态信息处理、知识检索和结果过滤三个阶段有机结合，形成一个完整的KB-VQA解决方案。

关键设计： 1. 视觉工具选择：根据问题类型和图像内容，动态选择合适的视觉工具进行信息提取。 2. 多模态特征融合：采用合适的特征融合方法，将视觉特征和文本特征进行有效融合，用于知识检索。 3. 强化学习奖励函数：设计以答案准确性和格式一致性为导向的奖励函数，训练视觉语言模型，提高其过滤能力。 4. 损失函数：使用交叉熵损失函数训练模型，并结合强化学习的奖励信号进行微调。

📊 实验亮点

实验结果显示，Wiki-PRF框架在E-VQA和InfoSeek数据集上分别取得了36.0和42.8的显著提升，达到了state-of-the-art的性能。这表明该框架能够有效地提高KB-VQA任务的答案质量和准确性，验证了其有效性和优越性。

🎯 应用场景

该研究成果可应用于智能客服、教育辅助、医疗诊断等领域。例如，在智能客服中，可以利用该技术理解用户提出的包含图像的问题，并从知识库中检索相关信息，给出准确的答案。在医疗诊断中，可以辅助医生分析医学影像，并结合医学知识库进行诊断。

📄 摘要（原文）

Knowledge-based visual question answering (KB-VQA) requires visual language models (VLMs) to integrate visual understanding with external knowledge retrieval. Although retrieval-augmented generation (RAG) achieves significant advances in this task by combining knowledge-base querying, it still struggles with the quality of multimodal queries and the relevance of retrieved results. To overcome these challenges, we propose a novel three-stage method, termed Wiki-PRF, including Processing, Retrieval and Filtering stages. The processing stage dynamically invokes visual tools to extract precise multimodal information for retrieval. The retrieval stage integrates visual and text features to achieve multimodal knowledge retrieval. The filtering stage performs relevance filtering and concentration on retrieval results. To this end, we introduce a visual language model trained with answer accuracy and format consistency as reward signals via a reinforcement learning manner. This enhances the model's reasoning, tool invocation for accurate queries, and filtering of irrelevant content. Experiments on benchmark datasets (E-VQA and InfoSeek) show significant improvements~(36.0 and 42.8) in answer quality, achieving state-of-the-art performance. Code is available at https://github.com/cqu-student/Wiki-PRF

Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册