VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering

作者: Qi Zhi Lim, Chin Poo Lee, Kian Ming Lim, Kalaiarasi Sonai Muthu Anbananthen

分类: cs.CV, cs.CL

发布日期: 2025-04-11

💡 一句话要点

提出VLMT，用于解决多模态多跳问答中跨模态推理能力不足的问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态问答 多跳推理 视觉语言模型 Transformer 跨模态融合 预训练 token级别注入

📋 核心要点

现有MMQA方法在跨模态推理能力、模态转换依赖以及视觉-文本对齐方面存在不足。
VLMT通过Transformer架构和token级别注入机制，实现了视觉和文本信息的有效融合与对齐。
实验表明，VLMT在MultimodalQA和WebQA数据集上显著优于现有方法，提升了精确匹配和F1分数。

📝 摘要（中文）

本文提出了一种视觉-语言多模态Transformer (VLMT)，用于解决多模态多跳问答(MMQA)中存在的推理能力有限、依赖模态转换以及视觉和文本表示对齐不足等问题。VLMT是一个统一的架构，它将基于Transformer的视觉编码器与序列到序列的语言模型集成在一起。VLMT采用直接的token级别注入机制，在共享嵌入空间中融合视觉和文本输入，无需中间投影层。为了增强跨模态对齐和推理，提出了一种三阶段预训练策略，以逐步对齐视觉-语言表示，并提高模型的多模态理解能力。基于预训练的骨干网络，实例化了两个特定于任务的模块，形成一个两阶段MMQA框架：一个多模态重排序器，用于预测文档相关性得分，并利用相对阈值与top-k策略进行上下文检索；以及一个多模态问答模型，用于生成基于检索到的证据的上下文相关的答案。在两个基准数据集上的综合实验证明了该方法的有效性。在MultimodalQA验证集上，VLMT-Large实现了76.5%的精确匹配和80.1%的F1分数，在精确匹配方面超过了先前的最先进水平+9.1%，在F1方面超过了+8.8%。在WebQA上，它获得了47.6的QA分数，超过了PERQA等先前的模型+3.2。这些结果突出了VLMT在多模态推理方面的强大能力，以及其在推进现实世界信息检索和问答系统方面的潜力。

🔬 方法详解

问题定义：论文旨在解决多模态多跳问答（MMQA）任务中，现有方法在跨模态推理能力上的不足。现有方法通常存在推理能力有限、依赖模态转换（例如将图像转换为文本描述）以及视觉和文本表示对齐不充分等痛点，导致模型无法有效利用多模态信息进行复杂推理。

核心思路：论文的核心思路是设计一个统一的视觉-语言多模态Transformer（VLMT）架构，通过直接在token级别融合视觉和文本信息，避免模态转换带来的信息损失。同时，采用三阶段预训练策略，逐步提升模型对视觉和语言信息的对齐能力和多模态理解能力。

技术框架：VLMT的整体架构包含以下几个主要模块/阶段： 1. 视觉编码器：使用Transformer-based的视觉编码器提取图像特征。 2. 语言模型：使用序列到序列的语言模型处理文本信息。 3. Token级别融合：通过直接将视觉token注入到文本token序列中，实现视觉和文本信息的融合。 4. 三阶段预训练：包括视觉-语言对齐、跨模态推理能力提升等阶段。 5. MMQA框架：包含多模态重排序器和多模态问答模型两个阶段，前者用于检索相关上下文，后者用于生成答案。

关键创新：VLMT最重要的技术创新点在于其直接的token级别注入机制，避免了中间投影层，从而减少了信息损失，并实现了更有效的视觉-语言融合。此外，三阶段预训练策略也显著提升了模型的跨模态对齐和推理能力。与现有方法的本质区别在于，VLMT采用了一种更直接、更高效的多模态融合方式，并针对MMQA任务进行了专门的预训练。

关键设计： * Token注入方式：具体如何将视觉token插入到文本token序列中（例如，在特定位置插入，或者使用注意力机制进行加权融合）。 * 三阶段预训练策略：详细描述每个阶段的目标、数据和训练方法。 * 损失函数：用于预训练和微调的损失函数，例如交叉熵损失、对比学习损失等。 * 网络结构：Transformer的具体结构，包括层数、注意力头数、隐藏层大小等。

🖼️ 关键图片

📊 实验亮点

VLMT在MultimodalQA验证集上取得了显著的性能提升，精确匹配率达到76.5%，F1分数达到80.1%，分别超过了现有最佳模型9.1%和8.8%。在WebQA数据集上，VLMT的QA得分达到47.6，超过了PERQA等现有模型3.2%。这些结果表明，VLMT在多模态推理方面具有强大的能力。

🎯 应用场景

该研究成果可应用于智能客服、医疗诊断、教育辅助等领域。例如，在智能客服中，模型可以理解用户提出的包含图像和文本的问题，并从多模态知识库中检索答案。在医疗诊断中，模型可以结合医学影像和病历文本进行辅助诊断。未来，该技术有望推动多模态信息处理和人工智能应用的进一步发展。

📄 摘要（原文）

The increasing availability of multimodal data across text, tables, and images presents new challenges for developing models capable of complex cross-modal reasoning. Existing methods for Multimodal Multi-hop Question Answering (MMQA) often suffer from limited reasoning capabilities, reliance on modality conversion, and inadequate alignment between visual and textual representations. To address these limitations, this paper introduces Vision-Language Multimodal Transformer (VLMT), a unified architecture that integrates a transformer-based vision encoder with a sequence-to-sequence language model. VLMT employs a direct token-level injection mechanism to fuse visual and textual inputs within a shared embedding space, eliminating the need for intermediate projection layers. To enhance cross-modal alignment and reasoning, a three-stage pretraining strategy is proposed to progressively align vision-language representations and improve the model's capacity for multimodal understanding. Based on the pretrained backbone, two task-specific modules are instantiated to form a two-stage MMQA framework: a multimodal reranker that predicts document relevance scores and utilizes a relative threshold with top-k strategy for context retrieval, and a multimodal question answering model that generates contextually grounded answers based on the retrieved evidence. Comprehensive experiments on two benchmark datasets demonstrate the effectiveness of the proposed approach. On MultimodalQA validation set, VLMT-Large achieves 76.5% Exact Match and 80.1% F1, outperforming the previous state-of-the-art by +9.1% in Exact Match and +8.8% in F1. On WebQA, it attains a QA score of 47.6, surpassing prior models such as PERQA by +3.2. These results highlight VLMT's strong capabilities in multimodal reasoning and its potential to advance real-world information retrieval and question answering systems.

VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理