VLURes: Benchmarking VLM Visual and Linguistic Understanding in Low-Resource Languages

📄 arXiv: 2510.12845v1 📥 PDF

作者: Jesse Atuhurra, Iqra Ali, Tomoya Iwakura, Hidetaka Kamigaito, Tatsuya Hiraoka

分类: cs.CL, cs.AI, cs.CV, cs.RO

发布日期: 2025-10-14


💡 一句话要点

VLURes:提出多语言视觉语言理解基准,评估低资源语言环境下VLM的性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视觉语言模型 多语言 低资源语言 基准测试 长文本理解

📋 核心要点

  1. 现有VLM评估主要集中在英语和短文本上,缺乏对细粒度视觉语言理解能力在多语言和长文本环境下的评估。
  2. 提出VLURes基准,包含八个视觉语言任务和一个不相关性任务,覆盖英语、日语、斯瓦希里语和乌尔都语。
  3. 实验结果表明,即使是GPT-4o这样的先进模型,在低资源语言和复杂任务上仍与人类存在差距,开源模型差距更大。

📝 摘要(中文)

视觉语言模型(VLM)对于提升智能代理的感知能力至关重要。然而,对VLM的评估仍然主要集中在以英语为中心的基准上,且图像-文本对通常包含短文本。为了评估VLM的细粒度能力,我们在长文本设置下,针对四种语言,引入了一个新的多语言基准VLURes,其中包含八个视觉和语言任务,以及一个开创性的不相关性任务,旨在探究VLM在英语、日语和低资源语言(斯瓦希里语和乌尔都语)中的细粒度视觉和语言理解能力。我们的数据集从目标语言的网络资源中收集,包含十个不同的图像类别和丰富的文本上下文,为斯瓦希里语和乌尔都语引入了宝贵的视觉语言资源。通过提示VLM生成响应和理由,并由母语人士进行自动和人工评估,我们发现了不同语言和任务(如对象识别、场景理解和关系理解)之间的性能差异,这对智能代理至关重要。我们使用VLURes评估了十个VLM。性能最佳的模型GPT-4o实现了90.8%的总体准确率,落后于人类表现6.7%,但开源模型的差距更大。这一差距突显了VLURes在开发智能代理以解决多模态视觉推理方面的关键作用。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)的评估主要集中在英语数据集上,并且通常使用短文本。这使得我们难以评估VLM在处理长文本和低资源语言时的细粒度视觉和语言理解能力。因此,需要一个更全面、多语言的基准来评估VLM在更复杂场景下的性能。

核心思路:论文的核心思路是构建一个多语言的、包含长文本描述的视觉语言理解基准(VLURes)。通过在多种视觉语言任务上评估VLM,并结合自动评估和人工评估,可以更全面地了解VLM在不同语言和任务上的性能差异。同时,引入不相关性任务,考察模型区分相关和不相关信息的能力。

技术框架:VLURes基准包含八个视觉语言任务和一个不相关性任务。数据集从网络资源中收集,涵盖英语、日语、斯瓦希里语和乌尔都语四种语言,包含十个不同的图像类别和丰富的文本上下文。评估流程包括:1) 提示VLM生成响应和理由;2) 使用自动指标评估生成结果;3) 由母语人士进行人工评估。

关键创新:VLURes的主要创新点在于:1) 它是首个针对低资源语言(斯瓦希里语和乌尔都语)的视觉语言理解基准;2) 它包含长文本描述,更贴近实际应用场景;3) 它引入了不相关性任务,考察模型区分相关和不相关信息的能力。与现有基准相比,VLURes更全面地评估了VLM的细粒度视觉和语言理解能力。

关键设计:VLURes数据集的构建过程中,作者精心挑选了来自网络资源的图像和文本,确保数据的质量和多样性。对于低资源语言,作者特别注意数据的平衡性和代表性。在评估过程中,作者使用了多种自动指标,如准确率、BLEU等,并结合人工评估,以获得更可靠的评估结果。具体任务包括:视觉问答,图像描述,视觉推理等。不相关性任务通过引入与图像内容无关的文本描述来考察模型的鲁棒性。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,GPT-4o在VLURes基准上取得了最佳性能,总体准确率达到90.8%,但仍落后于人类表现6.7%。开源模型的性能差距更大,表明现有VLM在低资源语言和复杂任务上仍有很大的提升空间。VLURes的评估结果揭示了不同语言和任务之间的性能差异,为未来的模型改进提供了重要参考。

🎯 应用场景

该研究成果可应用于开发更智能、更通用的视觉语言模型,尤其是在低资源语言环境下的应用。例如,可以用于构建多语言智能助手、跨文化交流工具、以及在缺乏标注数据的场景下进行图像理解和分析。该基准的发布也将促进相关领域的研究和发展。

📄 摘要(原文)

Vision Language Models (VLMs) are pivotal for advancing perception in intelligent agents. Yet, evaluation of VLMs remains limited to predominantly English-centric benchmarks in which the image-text pairs comprise short texts. To evaluate VLM fine-grained abilities, in four languages under long-text settings, we introduce a novel multilingual benchmark VLURes featuring eight vision-and-language tasks, and a pioneering unrelatedness task, to probe the fine-grained Visual and Linguistic Understanding capabilities of VLMs across English, Japanese, and low-resource languages, Swahili, and Urdu. Our datasets, curated from web resources in the target language, encompass ten diverse image categories and rich textual context, introducing valuable vision-language resources for Swahili and Urdu. By prompting VLMs to generate responses and rationales, evaluated automatically and by native speakers, we uncover performance disparities across languages and tasks critical to intelligent agents, such as object recognition, scene understanding, and relationship understanding. We conducted evaluations of ten VLMs with VLURes. The best performing model, GPT-4o, achieves an overall accuracy of 90.8% and lags human performance by 6.7%, though the gap is larger for open-source models. The gap highlights VLURes' critical role in developing intelligent agents to tackle multi-modal visual reasoning.