VLURes: Benchmarking VLM Visual and Linguistic Understanding in Low-Resource Languages
作者: Jesse Atuhurra, Iqra Ali, Tomoya Iwakura, Hidetaka Kamigaito, Tatsuya Hiraoka
分类: cs.CL, cs.AI, cs.CV, cs.RO
发布日期: 2025-10-14
💡 一句话要点
VLURes:提出多语种视觉语言理解基准,评估低资源语言环境下VLM的细粒度能力。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视觉语言模型 多语种基准 低资源语言 长文本理解 细粒度评估
📋 核心要点
- 现有VLM评估主要集中于英语环境,缺乏对长文本和低资源语言的细粒度理解能力评估。
- VLURes基准包含八个视觉语言任务和一个不相关性任务,覆盖英语、日语、斯瓦希里语和乌尔都语。
- 实验结果表明,即使是GPT-4o,在低资源语言和复杂任务上与人类水平仍有差距,开源模型差距更大。
📝 摘要(中文)
视觉语言模型(VLM)对于提升智能代理的感知能力至关重要。然而,对VLM的评估仍然主要集中在以英语为中心的基准上,这些基准中的图像-文本对包含的文本较短。为了评估VLM的细粒度能力,我们在长文本设置下,针对四种语言,提出了一个新的多语种基准VLURes,其中包含八个视觉和语言任务,以及一个开创性的不相关性任务,以探测VLM在英语、日语和低资源语言(斯瓦希里语和乌尔都语)中的细粒度视觉和语言理解能力。我们的数据集从目标语言的网络资源中收集,包含十个不同的图像类别和丰富的文本上下文,为斯瓦希里语和乌尔都语引入了有价值的视觉语言资源。通过提示VLM生成响应和理由,并由自动评估和母语人士评估,我们发现了智能代理关键任务(如对象识别、场景理解和关系理解)中不同语言和任务之间的性能差异。我们使用VLURes评估了十个VLM。性能最佳的模型GPT-4o实现了90.8%的总体准确率,比人类性能低6.7%,但开源模型的差距更大。这一差距突显了VLURes在开发智能代理以解决多模态视觉推理方面的关键作用。
🔬 方法详解
问题定义:现有视觉语言模型(VLM)的评估主要集中在英语数据集上,并且通常使用短文本。这使得我们难以评估VLM在长文本和低资源语言环境下的细粒度视觉和语言理解能力。现有方法无法充分测试VLM在复杂场景理解、关系推理以及处理不同语言文化背景下的能力。
核心思路:论文的核心思路是构建一个多语种、长文本的视觉语言理解基准(VLURes),该基准包含多个任务,旨在全面评估VLM在不同语言和任务上的细粒度能力。通过引入低资源语言(斯瓦希里语和乌尔都语),可以更好地了解VLM在资源匮乏情况下的表现。同时,长文本的引入可以测试VLM对上下文信息的理解和推理能力。
技术框架:VLURes基准包含八个视觉和语言任务,以及一个不相关性任务。这些任务涵盖了对象识别、场景理解、关系理解等多个方面。数据集的构建主要通过从目标语言的网络资源中收集图像和文本,并进行人工标注和验证。评估过程包括提示VLM生成响应和理由,然后使用自动评估指标和人工评估相结合的方式来评估VLM的性能。
关键创新:VLURes基准的主要创新点在于其多语种和长文本的特性。它首次将低资源语言(斯瓦希里语和乌尔都语)引入到VLM的评估中,并使用长文本来测试VLM的上下文理解能力。此外,VLURes还引入了一个不相关性任务,用于评估VLM区分相关和不相关信息的能力。
关键设计:VLURes基准的关键设计包括:1)选择具有代表性的视觉和语言任务,以全面评估VLM的细粒度能力;2)构建包含丰富文本上下文的数据集,以测试VLM的上下文理解能力;3)采用自动评估和人工评估相结合的方式,以确保评估结果的准确性和可靠性;4)针对低资源语言,采用数据增强和迁移学习等技术,以提高VLM的性能(具体细节未知)。
📊 实验亮点
实验结果表明,GPT-4o在VLURes基准上取得了最佳性能,总体准确率达到90.8%,但与人类性能仍有6.7%的差距。开源模型的性能差距更大,表明现有VLM在低资源语言和复杂任务上的性能仍有提升空间。VLURes基准的引入为评估和改进VLM在多语种环境下的性能提供了重要工具。
🎯 应用场景
该研究成果可应用于开发更智能、更通用的多模态智能代理,尤其是在低资源语言和文化背景下。例如,可以用于构建能够理解当地语言和文化的智能客服、教育机器人或医疗助手。此外,该基准还可以促进VLM在跨语言信息检索、机器翻译和多模态内容生成等领域的应用。
📄 摘要(原文)
Vision Language Models (VLMs) are pivotal for advancing perception in intelligent agents. Yet, evaluation of VLMs remains limited to predominantly English-centric benchmarks in which the image-text pairs comprise short texts. To evaluate VLM fine-grained abilities, in four languages under long-text settings, we introduce a novel multilingual benchmark VLURes featuring eight vision-and-language tasks, and a pioneering unrelatedness task, to probe the fine-grained Visual and Linguistic Understanding capabilities of VLMs across English, Japanese, and low-resource languages, Swahili, and Urdu. Our datasets, curated from web resources in the target language, encompass ten diverse image categories and rich textual context, introducing valuable vision-language resources for Swahili and Urdu. By prompting VLMs to generate responses and rationales, evaluated automatically and by native speakers, we uncover performance disparities across languages and tasks critical to intelligent agents, such as object recognition, scene understanding, and relationship understanding. We conducted evaluations of ten VLMs with VLURes. The best performing model, GPT-4o, achieves an overall accuracy of 90.8% and lags human performance by 6.7%, though the gap is larger for open-source models. The gap highlights VLURes' critical role in developing intelligent agents to tackle multi-modal visual reasoning.