JAMMEval: A Refined Collection of Japanese Benchmarks for Reliable VLM Evaluation
作者: Issa Sugiura, Koki Maeda, Shuhei Kurita, Yusuke Oda, Daisuke Kawahara, Naoaki Okazaki
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
提出JAMMEval,用于可靠评估日语VLM的精细化基准集合
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 VQA 日语基准 数据集构建 人工标注
📋 核心要点
- 现有日语VQA基准存在问题定义模糊、答案错误等缺陷,影响VLM评估的可靠性。
- JAMMEval通过两轮人工标注,系统性地改进现有日语基准数据集,提升数据质量。
- 实验表明,JAMMEval能更准确地反映模型能力,降低评估方差,更好地区分模型优劣。
📝 摘要(中文)
可靠的评估对于视觉语言模型(VLM)的开发至关重要。然而,日语VQA基准的迭代改进远不如英语基准。许多现有基准存在诸如问题含糊不清、答案不正确以及无需视觉基础即可解决的实例等问题,从而损害了评估的可靠性,并导致模型比较中产生误导性结论。为了解决这些局限性,我们引入了JAMMEval,这是一个用于可靠VLM评估的精细化日语基准集合。它通过两轮人工标注系统地改进了七个现有的日语基准数据集,从而提高了数据质量和评估可靠性。在我们的实验中,我们在JAMMEval上评估了开源和专有VLM,并分析了最新模型在日语VQA上的能力。我们进一步证明了我们改进的有效性,表明由此产生的基准产生了更好地反映模型能力的评估分数,表现出更低的运行方差,并提高了区分不同能力水平模型的能力。我们发布了我们的数据集和代码,以推进VLM的可靠评估。
🔬 方法详解
问题定义:现有日语视觉问答(VQA)基准测试集存在数据质量问题,例如问题定义不明确、答案错误,以及部分问题不需要视觉信息也能回答。这些问题导致VLM评估结果不可靠,无法准确反映模型的真实能力,使得模型之间的比较缺乏意义。
核心思路:论文的核心思路是通过人工标注的方式,对现有的日语VQA基准测试集进行系统性的清洗和改进,提高数据质量,从而提升评估的可靠性。通过多轮标注,确保问题清晰、答案准确,并消除不需要视觉信息即可回答的问题。
技术框架:JAMMEval的构建主要包含以下几个阶段:1) 选择现有的日语VQA基准数据集;2) 进行第一轮人工标注,主要关注问题是否清晰、答案是否正确;3) 根据第一轮标注结果,对数据集进行修改和完善;4) 进行第二轮人工标注,主要关注问题是否需要视觉信息才能回答;5) 根据第二轮标注结果,进一步修改和完善数据集,最终得到高质量的JAMMEval基准测试集。
关键创新:该论文的关键创新在于系统性地对日语VQA基准测试集进行了精细化改进,通过两轮人工标注,显著提高了数据质量和评估可靠性。这种精细化改进的方法可以推广到其他语言的VQA基准测试集的构建中。
关键设计:在人工标注过程中,论文设计了清晰的标注指南,确保标注人员能够准确理解标注任务,并给出一致的标注结果。此外,论文还采用了多名标注人员进行标注,并通过一致性检验来保证标注质量。具体参数设置和损失函数未提及,未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用JAMMEval评估VLM能够得到更准确的性能指标,降低评估结果的方差,并且能够更好地区分不同能力的VLM。与使用原始基准相比,使用JAMMEval能够更有效地评估VLM在日语VQA任务上的真实能力,提升模型选择和优化的效率。
🎯 应用场景
JAMMEval可用于评估和比较各种视觉语言模型在日语VQA任务上的性能。高质量的评估基准能够推动VLM在日语环境下的发展,并促进其在日语客服、日语教育、日语内容理解等领域的应用。该研究为构建更可靠的多语言VLM评估体系提供了借鉴。
📄 摘要(原文)
Reliable evaluation is essential for the development of vision-language models (VLMs). However, Japanese VQA benchmarks have undergone far less iterative refinement than their English counterparts. As a result, many existing benchmarks contain issues such as ambiguous questions, incorrect answers, and instances that can be solved without visual grounding, undermining evaluation reliability and leading to misleading conclusions in model comparisons. To address these limitations, we introduce JAMMEval, a refined collection of Japanese benchmarks for reliable VLM evaluation. It is constructed by systematically refining seven existing Japanese benchmark datasets through two rounds of human annotation, improving both data quality and evaluation reliability. In our experiments, we evaluate open-weight and proprietary VLMs on JAMMEval and analyze the capabilities of recent models on Japanese VQA. We further demonstrate the effectiveness of our refinement by showing that the resulting benchmarks yield evaluation scores that better reflect model capability, exhibit lower run-to-run variance, and improve the ability to distinguish between models of different capability levels. We release our dataset and code to advance reliable evaluation of VLMs.