LinguaMark: Do Multimodal Models Speak Fairly? A Benchmark-Based Evaluation

📄 arXiv: 2507.07274v1 📥 PDF

作者: Ananya Raval, Aravind Narayanan, Vahid Reza Khazaie, Shaina Raza

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-07-09

备注: Accepted at ASONAM'25


💡 一句话要点

LinguaMark:提出多语言多模态偏见评估基准,揭示LMMs在公平性上的不足。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 多语言评估 公平性 视觉问答 基准数据集

📋 核心要点

  1. 现有LMMs在多语言环境下的公平性评估不足,存在语言覆盖范围限制和潜在偏见。
  2. LinguaMark基准通过多语言VQA任务,从偏差、相关性和忠实性三个维度评估LMMs。
  3. 实验表明,闭源模型整体性能最佳,Qwen2.5在多语言泛化方面表现突出,基准已开源。

📝 摘要(中文)

大型多模态模型(LMMs)通常在大量的图像-文本数据上进行训练,但在语言覆盖范围上往往受到限制,导致跨语言的输出存在偏差和不公平。虽然之前的工作已经探索了多模态评估,但较少强调评估多语言能力。本文提出了LinguaMark,这是一个旨在评估最先进的LMMs在多语言视觉问答(VQA)任务上的基准。我们的数据集包含6,875个图像-文本对,涵盖11种语言和5个社会属性。我们使用三个关键指标评估模型:偏差、答案相关性和忠实性。我们的研究结果表明,闭源模型通常能获得最高的整体性能。闭源模型(GPT-4o和Gemini2.5)和开源模型(Gemma3, Qwen2.5)在社会属性方面表现出竞争力,Qwen2.5在多种语言中表现出强大的泛化能力。我们发布了我们的基准和评估代码,以鼓励可重复性和进一步研究。

🔬 方法详解

问题定义:论文旨在解决大型多模态模型(LMMs)在多语言环境下的公平性问题。现有方法在评估LMMs时,较少关注其多语言能力,导致无法有效识别和解决模型在不同语言和文化背景下的偏见问题。这可能导致模型在某些语言或社会群体中产生不公平或不准确的输出。

核心思路:论文的核心思路是构建一个多语言的视觉问答(VQA)基准,用于系统性地评估LMMs在不同语言和社会属性上的表现。通过设计包含多种语言和涉及社会属性的问题,可以更全面地了解LMMs的偏见和公平性问题。

技术框架:LinguaMark基准包含以下几个关键组成部分:1) 多语言图像-文本数据集:包含6,875个图像-文本对,涵盖11种语言和5个社会属性。2) VQA任务:要求模型根据图像和问题生成答案。3) 评估指标:包括偏差(Bias)、答案相关性(Answer Relevancy)和忠实性(Faithfulness),用于衡量模型的性能和公平性。整体流程是,将图像和多语言问题输入LMMs,然后使用评估指标对模型的输出进行评估。

关键创新:该论文的关键创新在于构建了一个专门用于评估LMMs多语言公平性的基准数据集和评估体系。与现有方法相比,LinguaMark更加关注LMMs在不同语言和社会属性上的表现,能够更全面地揭示模型存在的偏见问题。此外,该基准的开源发布也促进了该领域的研究和发展。

关键设计:数据集包含11种语言,选择标准未知,但应考虑了语言的多样性和代表性。5个社会属性的选择标准未知,但应考虑了社会敏感性和重要性。评估指标的设计旨在衡量模型的偏差、答案质量和对输入信息的忠实程度。具体参数设置、损失函数和网络结构取决于被评估的LMMs,论文主要关注评估方法,而非模型本身的设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,闭源模型(GPT-4o和Gemini2.5)在整体性能上表现最佳,但开源模型(Gemma3和Qwen2.5)在社会属性方面也具有竞争力。Qwen2.5在多种语言中表现出强大的泛化能力。这些结果揭示了现有LMMs在多语言公平性方面存在的差距,并为未来的研究提供了方向。

🎯 应用场景

该研究成果可应用于评估和改进多语言多模态模型的公平性,例如在智能客服、跨文化交流、教育资源本地化等领域。通过使用LinguaMark基准,可以帮助开发者识别和消除模型中的偏见,从而提高模型在不同语言和文化背景下的可用性和可靠性,促进更公平和包容的人工智能应用。

📄 摘要(原文)

Large Multimodal Models (LMMs) are typically trained on vast corpora of image-text data but are often limited in linguistic coverage, leading to biased and unfair outputs across languages. While prior work has explored multimodal evaluation, less emphasis has been placed on assessing multilingual capabilities. In this work, we introduce LinguaMark, a benchmark designed to evaluate state-of-the-art LMMs on a multilingual Visual Question Answering (VQA) task. Our dataset comprises 6,875 image-text pairs spanning 11 languages and five social attributes. We evaluate models using three key metrics: Bias, Answer Relevancy, and Faithfulness. Our findings reveal that closed-source models generally achieve the highest overall performance. Both closed-source (GPT-4o and Gemini2.5) and open-source models (Gemma3, Qwen2.5) perform competitively across social attributes, and Qwen2.5 demonstrates strong generalization across multiple languages. We release our benchmark and evaluation code to encourage reproducibility and further research.