MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering

作者: Jingqun Tang, Qi Liu, Yongjie Ye, Jinghui Lu, Shu Wei, Chunhui Lin, Wanqing Li, Mohamad Fitri Faiz Bin Mahmood, Hao Feng, Zhen Zhao, Yangfan He, Kuan Lu, Yanjie Wang, Yuliang Liu, Hao Liu, Xiang Bai, Can Huang

分类: cs.CV

发布日期: 2024-05-20 (更新: 2025-06-11)

备注: Accepted by ACL 2025 findings

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出MTVQA：一个多语言文本中心视觉问答基准，促进多语言场景理解。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多语言视觉问答 文本中心VQA 多模态学习 基准数据集 视觉文本理解

📋 核心要点

现有文本中心视觉问答基准主要集中于高资源语言，且翻译方法存在视觉-文本不对齐问题。
MTVQA通过人工标注构建高质量多语言数据集，覆盖9种语言，旨在解决多语言场景下的视觉问答难题。
实验表明，现有MLLM在MTVQA上仍有较大提升空间，且使用MTVQA数据微调可显著提高性能。

📝 摘要（中文）

本文提出了MTVQA，一个多语言文本中心视觉问答（TEC-VQA）基准。现有的TEC-VQA基准主要集中在英语和中文等高资源语言上，而通过翻译引擎扩展非文本中心VQA数据集的方法在TEC-VQA中存在严重的“视觉-文本不对齐”问题，忽略了图像中的视觉文本，并且未能解决细微含义、语境扭曲、语言偏差和问题类型多样性等复杂性。MTVQA是首个包含9种不同语言的高质量人工专家标注的基准，包含2116张图像上的6778个问答对。对Qwen2-VL、GPT-4o、GPT-4V、Claude3和Gemini等先进的多模态大型语言模型（MLLM）的评估表明，性能仍有很大提升空间（Qwen2-VL得分为30.9，而人类表现为79.7），突显了MTVQA的价值。此外，MTVQA数据集提供了多语言训练数据，证明使用这些数据进行微调可以显著提高多语言TEC-VQA性能。希望MTVQA能为研究界提供新的见解，并激发对多语言视觉文本理解的进一步探索。

🔬 方法详解

问题定义：本文旨在解决多语言文本中心视觉问答（TEC-VQA）领域缺乏高质量、多语言基准数据集的问题。现有方法，如直接翻译现有的VQA数据集，在应用于TEC-VQA时会遇到严重的“视觉-文本不对齐”问题，因为它们主要关注问题-答案对的文本，而忽略了图像中存在的视觉文本信息。此外，翻译方法难以处理语言的细微差别、语境扭曲、语言偏差以及问题类型的多样性，导致模型在多语言环境下的性能不佳。

核心思路：本文的核心思路是构建一个高质量、人工标注的多语言TEC-VQA数据集，以克服现有方法的局限性。通过人工标注，可以确保问题、答案和图像中的视觉文本之间的一致性和准确性，从而更好地评估和提升模型在多语言环境下的视觉文本理解能力。此外，数据集的多样性（包括语言、问题类型等）也有助于提高模型的泛化能力。

技术框架：MTVQA数据集的构建流程主要包括以下几个阶段：1) 图像收集：收集包含丰富视觉文本信息的图像。2) 问题生成：由人工标注员根据图像内容生成问题，问题涵盖不同的类型和难度。3) 答案标注：由人工标注员根据图像和问题提供准确的答案。4) 多语言翻译：将问题和答案翻译成9种不同的语言，并进行人工校对，以确保翻译质量。5) 数据集划分：将数据集划分为训练集、验证集和测试集。

关键创新：MTVQA的主要创新点在于它是第一个高质量、人工标注的多语言TEC-VQA基准数据集。与以往基于翻译的方法相比，MTVQA通过人工标注确保了视觉文本与问题答案之间的高度一致性，从而更准确地评估模型在多语言环境下的视觉文本理解能力。此外，MTVQA还涵盖了多种语言和问题类型，有助于提高模型的泛化能力。

关键设计：MTVQA数据集包含2116张图像和6778个问答对，涵盖9种不同的语言。数据集中的问题类型包括对象识别、属性描述、关系推理等。为了评估模型的性能，本文采用了常用的VQA评估指标，如准确率。此外，本文还提供了多语言训练数据，并展示了使用这些数据进行微调可以显著提高多语言TEC-VQA性能。

🖼️ 关键图片

📊 实验亮点

在MTVQA基准上，对包括Qwen2-VL、GPT-4o、GPT-4V、Claude3和Gemini在内的多个先进多模态大语言模型进行了评估。结果显示，Qwen2-VL的得分仅为30.9，而人类表现为79.7，表明现有模型仍有很大的提升空间。此外，实验证明，使用MTVQA数据集进行微调可以显著提高多语言TEC-VQA的性能，验证了数据集的有效性。

🎯 应用场景

MTVQA数据集可广泛应用于多语言场景下的视觉问答任务，例如：多语言文档理解、跨语言图像搜索、多语言辅助阅读等。该数据集的发布将促进多语言视觉文本理解领域的研究，并推动相关技术的实际应用，例如提升多语言环境下智能客服的准确性和效率。

📄 摘要（原文）

Text-Centric Visual Question Answering (TEC-VQA) in its proper format not only facilitates human-machine interaction in text-centric visual environments but also serves as a de facto gold proxy to evaluate AI models in the domain of text-centric scene understanding. Nonetheless, most existing TEC-VQA benchmarks have focused on high-resource languages like English and Chinese. Despite pioneering works to expand multilingual QA pairs in non-text-centric VQA datasets through translation engines, the translation-based protocol encounters a substantial "visual-textual misalignment" problem when applied to TEC-VQA. Specifically, it prioritizes the text in question-answer pairs while disregarding the visual text present in images. Moreover, it fails to address complexities related to nuanced meaning, contextual distortion, language bias, and question-type diversity. In this work, we tackle multilingual TEC-VQA by introducing MTVQA, the first benchmark featuring high-quality human expert annotations across 9 diverse languages, consisting of 6,778 question-answer pairs across 2,116 images. Further, by comprehensively evaluating numerous state-of-the-art Multimodal Large Language Models~(MLLMs), including Qwen2-VL, GPT-4o, GPT-4V, Claude3, and Gemini, on the MTVQA benchmark, it is evident that there is still a large room for performance improvement (Qwen2-VL scoring 30.9 versus 79.7 for human performance), underscoring the value of MTVQA. Additionally, we supply multilingual training data within the MTVQA dataset, demonstrating that straightforward fine-tuning with this data can substantially enhance multilingual TEC-VQA performance. We aspire that MTVQA will offer the research community fresh insights and stimulate further exploration in multilingual visual text comprehension. The project homepage is available at https://bytedance.github.io/MTVQA/.

MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理