Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent
作者: Yangning Li, Yinghui Li, Xinyu Wang, Yong Jiang, Zhen Zhang, Xinran Zheng, Hui Wang, Hai-Tao Zheng, Philip S. Yu, Fei Huang, Jingren Zhou
分类: cs.CL
发布日期: 2024-11-05 (更新: 2025-05-26)
🔗 代码/项目: GITHUB
💡 一句话要点
提出OmniSearch,一种自适应多模态检索增强生成方法,解决动态VQA任务中现有方法的不足。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态检索增强生成 动态视觉问答 自适应规划代理 知识检索 多跳推理
📋 核心要点
- 现有mRAG方法检索过程固定,无法适应动态VQA任务中查询、工具和时间变化的需求,导致检索查询非自适应和过载。
- OmniSearch通过模仿人类解决问题的行为,将复杂问题分解为子问题链,并动态规划检索动作,实现自适应的多模态检索。
- 在Dyn-VQA数据集上的实验表明,OmniSearch能够有效解决动态问题,显著优于现有启发式mRAG方法,为mRAG发展提供新方向。
📝 摘要(中文)
多模态检索增强生成(mRAG)在缓解多模态大型语言模型(MLLM)中固有的“幻觉”问题方面发挥着重要作用。然而,现有的启发式mRAG通常预定义固定的检索过程,导致两个问题:(1)非自适应的检索查询。(2)过载的检索查询。目前的知识型视觉问答(VQA)数据集无法充分反映这些缺陷,因为大多数所需知识可以通过标准的两步检索轻松获得。为了弥补数据集的差距,我们首先构建了Dyn-VQA数据集,该数据集包含三种类型的“动态”问题,这些问题需要复杂的知识检索策略,这些策略在查询、工具和时间上是可变的:(1)答案快速变化的问题。(2)需要多模态知识的问题。(3)多跳问题。在Dyn-VQA上的实验表明,由于其僵化的检索过程,现有的启发式mRAG难以提供充分且精确相关的知识来回答动态问题。因此,我们进一步提出了第一个用于多模态检索的自适应规划代理OmniSearch。其基本思想是模拟人类解决问题的行为,即将复杂的多模态问题动态分解为带有检索动作的子问题链。大量的实验证明了OmniSearch的有效性,也为推进mRAG提供了方向。代码和数据集将在https://github.com/Alibaba-NLP/OmniSearch上开源。
🔬 方法详解
问题定义:现有mRAG方法在处理动态VQA任务时,由于其固定的检索流程,无法有效地适应问题中查询、工具和时间的变化。这导致检索查询要么不够精确(非自适应),要么包含过多无关信息(过载),最终影响答案的准确性。现有VQA数据集难以充分体现这些问题,因为它们通常只需要简单的两步检索即可获得所需知识。
核心思路:OmniSearch的核心思路是模拟人类解决复杂问题的过程,将复杂的多模态问题分解为一系列更简单的子问题,并针对每个子问题动态规划检索动作。这种自适应的规划能力使得OmniSearch能够根据问题的具体需求,选择合适的检索工具和查询策略,从而更有效地获取相关知识。
技术框架:OmniSearch主要包含以下几个模块:问题分解模块,将复杂问题分解为子问题链;检索规划模块,根据子问题的需求,动态选择合适的检索工具和查询策略;知识检索模块,利用选定的工具和策略进行知识检索;答案生成模块,将检索到的知识整合并生成最终答案。整个流程是一个迭代的过程,每个子问题的答案都会影响后续子问题的分解和检索规划。
关键创新:OmniSearch的关键创新在于其自适应的检索规划能力。与现有方法预定义固定检索流程不同,OmniSearch能够根据问题的具体需求,动态调整检索策略,从而更有效地获取相关知识。这种自适应性使得OmniSearch能够更好地处理动态VQA任务,并缓解现有方法中存在的非自适应和过载问题。
关键设计:OmniSearch使用强化学习来训练检索规划模块,奖励函数的设计至关重要,需要平衡检索效率和答案准确性。此外,问题分解模块的性能也直接影响整个系统的效果,需要采用合适的模型和训练策略来保证分解的准确性和完整性。具体的参数设置和网络结构细节在论文中有详细描述,此处不再赘述。
🖼️ 关键图片
📊 实验亮点
在Dyn-VQA数据集上的实验结果表明,OmniSearch显著优于现有的启发式mRAG方法。具体而言,OmniSearch在所有三种类型的动态问题上都取得了明显的性能提升,尤其是在需要多模态知识和多跳推理的问题上,提升幅度更为显著。这些结果证明了OmniSearch的自适应检索规划能力在处理复杂VQA任务中的有效性。
🎯 应用场景
OmniSearch具有广泛的应用前景,例如智能客服、自动驾驶、医疗诊断等领域。在这些领域中,系统需要根据用户的提问或环境的变化,动态地检索和整合多模态信息,才能做出准确的判断和决策。OmniSearch的自适应检索能力使其能够更好地满足这些需求,提高系统的智能化水平。
📄 摘要(原文)
Multimodal Retrieval Augmented Generation (mRAG) plays an important role in mitigating the "hallucination" issue inherent in multimodal large language models (MLLMs). Although promising, existing heuristic mRAGs typically predefined fixed retrieval processes, which causes two issues: (1) Non-adaptive Retrieval Queries. (2) Overloaded Retrieval Queries. However, these flaws cannot be adequately reflected by current knowledge-seeking visual question answering (VQA) datasets, since the most required knowledge can be readily obtained with a standard two-step retrieval. To bridge the dataset gap, we first construct Dyn-VQA dataset, consisting of three types of "dynamic" questions, which require complex knowledge retrieval strategies variable in query, tool, and time: (1) Questions with rapidly changing answers. (2) Questions requiring multi-modal knowledge. (3) Multi-hop questions. Experiments on Dyn-VQA reveal that existing heuristic mRAGs struggle to provide sufficient and precisely relevant knowledge for dynamic questions due to their rigid retrieval processes. Hence, we further propose the first self-adaptive planning agent for multimodal retrieval, OmniSearch. The underlying idea is to emulate the human behavior in question solution which dynamically decomposes complex multimodal questions into sub-question chains with retrieval action. Extensive experiments prove the effectiveness of our OmniSearch, also provide direction for advancing mRAG. The code and dataset will be open-sourced at https://github.com/Alibaba-NLP/OmniSearch.