BLEnD-Vis: Benchmarking Multimodal Cultural Understanding in Vision Language Models

📄 arXiv: 2510.11178v2 📥 PDF

作者: Bryan Chen Zhengyu Tan, Zheng Weihua, Zhengyuan Liu, Nancy F. Chen, Hwaran Lee, Kenny Tsu Wei Choo, Roy Ka-Wei Lee

分类: cs.CV, cs.CY

发布日期: 2025-10-13 (更新: 2026-01-24)

备注: EACL 2026

🔗 代码/项目: GITHUB


💡 一句话要点

BLEnD-Vis:构建多模态文化理解基准,评估视觉语言模型在文化知识上的鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 文化理解 多模态学习 基准数据集 鲁棒性评估

📋 核心要点

  1. 现有视觉语言模型在文化知识理解方面存在不足,缺乏对文化背景知识的鲁棒性和可迁移性的有效评估。
  2. 提出BLEnD-Vis基准,通过多模态、多元文化的问答形式,评估模型在不同语言表达和视觉模态下的文化理解能力。
  3. 实验表明,现有VLM在文化知识方面表现出脆弱性,跨模态一致性较低,尤其是在低资源地区。

📝 摘要(中文)

随着视觉语言模型(VLM)在全球范围内的部署,其理解文化背景知识的能力至关重要。然而,现有的评估主要集中于静态召回或孤立的视觉定位,未能充分评估VLM是否具备鲁棒且可迁移的文化理解能力。我们提出了BLEnD-Vis,一个多模态、多元文化基准,旨在评估VLM在不同语言表达和视觉模态下对日常文化知识的鲁棒性。BLEnD-Vis基于BLEnD数据集构建,包含313个文化相关的问答模板,覆盖16个地区,并生成三种对齐的多项选择题形式:(i)文本基线,查询区域到实体的信息;(ii)反向文本变体,查询实体到区域的信息;(iii)带有生成图像的VQA风格版本。该基准包含4,916张图像和超过21,000个多项选择题实例,并通过人工标注进行验证。BLEnD-Vis揭示了当前VLM文化知识的显著脆弱性;模型在语言重述下表现下降。虽然视觉线索通常有助于提高性能,但较低的跨模态一致性突显了稳健整合文本和视觉理解的挑战,尤其是在低资源地区。BLEnD-Vis为系统分析文化鲁棒性和多模态定位提供了一个关键的测试平台,揭示了局限性并指导更具文化能力的VLM的开发。代码可在https://github.com/Social-AI-Studio/BLEnD-Vis获取。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)的评估主要集中在静态知识的召回和孤立的视觉定位上,缺乏对模型在理解和应用文化背景知识方面的鲁棒性和泛化能力的全面评估。现有的评估方法难以衡量模型在面对不同的语言表达方式和视觉情境时,是否能够保持对文化知识的准确理解。

核心思路:论文的核心思路是构建一个多模态、多元文化的基准数据集BLEnD-Vis,该数据集包含多种形式的问答,旨在系统性地评估VLM在不同语言表达和视觉模态下对文化知识的理解能力。通过设计不同的问答形式(文本、反向文本、VQA),可以考察模型在不同情境下的文化知识鲁棒性。

技术框架:BLEnD-Vis的构建流程主要包括以下几个阶段:1) 基于BLEnD数据集,构建313个文化相关的问答模板,覆盖16个地区。2) 针对每个问答模板,生成三种对齐的多项选择题形式:文本基线(Region -> Entity)、反向文本变体(Entity -> Region)和带有生成图像的VQA风格版本。3) 通过人工标注对生成的数据进行验证,确保数据的质量和准确性。最终,该基准包含4,916张图像和超过21,000个多项选择题实例。

关键创新:该论文的关键创新在于提出了一个专门用于评估VLM文化理解能力的基准数据集BLEnD-Vis。与现有的评估方法相比,BLEnD-Vis更加关注模型在不同语言表达和视觉模态下的鲁棒性,并且覆盖了多个文化区域,从而能够更全面地评估VLM的文化理解能力。此外,该数据集还包含了多种形式的问答,可以考察模型在不同情境下的表现。

关键设计:BLEnD-Vis的关键设计包括:1) 多样化的问答形式:文本、反向文本和VQA风格的问答,用于考察模型在不同情境下的文化知识理解能力。2) 覆盖多个文化区域:包含16个地区的文化知识,从而能够更全面地评估VLM的文化理解能力。3) 人工标注验证:通过人工标注对生成的数据进行验证,确保数据的质量和准确性。4) 使用图像生成技术来创建VQA风格的视觉提示,以评估视觉信息对文化知识理解的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有VLM在BLEnD-Vis基准上表现出显著的脆弱性,尤其是在语言重述和低资源地区。视觉线索虽然通常有助于提高性能,但跨模态一致性较低,表明模型在稳健整合文本和视觉信息方面存在挑战。这些发现为改进VLM的文化理解能力提供了重要的指导。

🎯 应用场景

BLEnD-Vis基准的提出,为开发更具文化意识和适应性的视觉语言模型奠定了基础。该研究成果可应用于智能客服、跨文化交流、教育娱乐等领域,有助于提升人工智能系统在不同文化背景下的理解和交互能力,促进全球范围内的文化交流与合作。

📄 摘要(原文)

As vision-language models (VLMs) are deployed globally, their ability to understand culturally situated knowledge becomes essential. Yet, existing evaluations largely assess static recall or isolated visual grounding, leaving unanswered whether VLMs possess robust and transferable cultural understanding. We introduce BLEnD-Vis, a multimodal, multicultural benchmark designed to evaluate the robustness of everyday cultural knowledge in VLMs across linguistic rephrasings and visual modalities. Building on the BLEnD dataset, BLEnD-Vis constructs 313 culturally grounded question templates spanning 16 regions and generates three aligned multiple-choice formats: (i) a text-only baseline querying from Region $\rightarrow$ Entity, (ii) an inverted text-only variant (Entity $\rightarrow$ Region), and (iii) a VQA-style version of (ii) with generated images. The resulting benchmark comprises 4,916 images and over 21,000 multiple-choice questions (MCQ) instances, validated through human annotation. BLEnD-Vis reveals significant fragility in current VLM cultural knowledge; models exhibit performance drops under linguistic rephrasing. While visual cues often aid performance, low cross-modal consistency highlights the challenges of robustly integrating textual and visual understanding, particularly in lower-resource regions. BLEnD-Vis thus provides a crucial testbed for systematically analysing cultural robustness and multimodal grounding, exposing limitations and guiding the development of more culturally competent VLMs. Code is available at https://github.com/Social-AI-Studio/BLEnD-Vis.