Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering

📄 arXiv: 2412.14880v1 📥 PDF

作者: Peize Li, Qingyi Si, Peng Fu, Zheng Lin, Yan Wang

分类: cs.CV

发布日期: 2024-12-19

备注: AAAI 2025


💡 一句话要点

提出多模态假设摘要(MHyS)方法,提升检索式多图问答性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多图问答 检索式问答 多模态学习 假设摘要 对比学习

📋 核心要点

  1. 传统检索式多图问答方法存在级联错误,QA训练目标未能优化检索阶段。
  2. 提出多模态假设摘要(MHyS),结合视觉和文本信息生成摘要,用于文本到文本的检索。
  3. 通过对比学习对齐问题和MHyS,并采用粗到精的相似度计算策略,显著提升检索和问答性能。

📝 摘要(中文)

本文提出了一种新颖的方法,旨在有效引入和参考检索信息,以解决检索式多图问答(QA)任务中“检索-再-回答”流程的级联错误问题。该方法利用多模态大语言模型(视觉视角)和大型语言模型(文本视角),为待检索的图像集生成问题形式和描述形式的多模态假设摘要(MHyS)。通过结合视觉和文本视角,MHyS更具体地捕捉图像内容,并在检索中替代真实图像,从而通过转换为文本到文本的检索来消除模态差距,并有助于改进检索。为了更有利地将检索引入QA,我们采用对比学习来对齐查询(问题)和MHyS。此外,我们提出了一种由粗到精的策略来计算句子级别和单词级别的相似度分数,以进一步增强检索并过滤掉不相关的细节。我们的方法在RETVQA上实现了超过现有技术水平3.7%的绝对改进,并且超过CLIP 14.5%。综合实验和详细的消融研究证明了我们方法的优越性。

🔬 方法详解

问题定义:检索式多图问答任务旨在检索与问题相关的多张图像,并综合这些图像的信息来生成答案。现有方法的痛点在于“检索-再-回答”的pipeline容易产生级联错误,即检索阶段的错误会传递到后续的问答阶段,导致最终答案不准确。QA模型的训练目标通常只关注问答的准确性,而忽略了对检索阶段的优化。

核心思路:论文的核心思路是利用多模态大语言模型生成图像的假设摘要,将图像信息转化为文本信息,从而将多模态检索问题转化为文本到文本的检索问题。通过这种方式,可以消除模态差距,并利用文本检索的优势来提高检索的准确性。同时,通过对比学习来对齐问题和假设摘要,可以进一步提高检索的召回率。

技术框架:整体框架包括以下几个主要模块:1) 多模态假设摘要生成模块:利用多模态大语言模型(视觉视角)和大型语言模型(文本视角)生成图像的假设摘要。2) 检索模块:使用生成的假设摘要作为查询,在文本数据库中检索相关的图像。3) 问答模块:使用检索到的图像和原始问题作为输入,生成最终答案。4) 对比学习模块:使用对比学习来对齐问题和假设摘要,提高检索的准确性。

关键创新:最重要的技术创新点在于提出了多模态假设摘要(MHyS)的概念,并将其应用于检索式多图问答任务中。与现有方法相比,MHyS能够更有效地捕捉图像内容,并消除模态差距,从而提高检索的准确性。此外,论文还提出了一种由粗到精的相似度计算策略,进一步增强了检索性能。

关键设计:在多模态假设摘要生成模块中,使用了视觉视角和文本视角两种方式来生成摘要,并将两种方式生成的摘要进行融合。在对比学习模块中,使用了InfoNCE损失函数来对齐问题和假设摘要。在相似度计算模块中,首先计算句子级别的相似度,然后计算单词级别的相似度,并将两种相似度进行加权融合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在RETVQA数据集上取得了显著的性能提升,超过现有技术水平3.7%,并且超过CLIP模型14.5%。消融实验验证了多模态假设摘要(MHyS)和粗到精相似度计算策略的有效性。这些结果表明,该方法能够有效地提高检索式多图问答的性能。

🎯 应用场景

该研究成果可应用于智能客服、图像搜索、教育辅助等领域。例如,在智能客服中,可以根据用户提出的问题,检索相关的图像信息,并生成更准确的答案。在图像搜索中,可以根据用户输入的文本描述,检索相关的图像。在教育辅助中,可以根据学生提出的问题,检索相关的图像资料,帮助学生更好地理解知识。

📄 摘要(原文)

Retrieval-based multi-image question answering (QA) task involves retrieving multiple question-related images and synthesizing these images to generate an answer. Conventional "retrieve-then-answer" pipelines often suffer from cascading errors because the training objective of QA fails to optimize the retrieval stage. To address this issue, we propose a novel method to effectively introduce and reference retrieved information into the QA. Given the image set to be retrieved, we employ a multimodal large language model (visual perspective) and a large language model (textual perspective) to obtain multimodal hypothetical summary in question-form and description-form. By combining visual and textual perspectives, MHyS captures image content more specifically and replaces real images in retrieval, which eliminates the modality gap by transforming into text-to-text retrieval and helps improve retrieval. To more advantageously introduce retrieval with QA, we employ contrastive learning to align queries (questions) with MHyS. Moreover, we propose a coarse-to-fine strategy for calculating both sentence-level and word-level similarity scores, to further enhance retrieval and filter out irrelevant details. Our approach achieves a 3.7% absolute improvement over state-of-the-art methods on RETVQA and a 14.5% improvement over CLIP. Comprehensive experiments and detailed ablation studies demonstrate the superiority of our method.