MSA at ImageCLEF 2025 Multimodal Reasoning: Multilingual Multimodal Reasoning With Ensemble Vision Language Models

作者: Seif Ahmed, Mohamed T. Younes, Abdelrahman Moustafa, Abdelrahman Allam, Hamza Moustafa

分类: cs.CL

发布日期: 2025-07-15

💡 一句话要点

提出基于集成视觉语言模型的MSA多语言多模态推理系统，在ImageCLEF 2025挑战赛中取得领先。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 多语言处理 视觉语言模型 集成学习 提示工程

📋 核心要点

现有方法在多语言多模态推理方面存在不足，尤其是在处理复杂视觉信息和跨语言理解时。
论文提出一种基于集成视觉语言模型的方法，利用多个模型的优势，并通过精心设计的提示进行协调。
实验结果表明，该方法在ImageCLEF 2025挑战赛中取得了显著成果，尤其是在多语言赛道上。

📝 摘要（中文）

本文介绍了一个用于多语言多模态推理的鲁棒的集成系统，该系统专为ImageCLEF 2025 EXAMS V挑战赛设计。我们的方法集成了Gemini 2.5 Flash用于视觉描述，Gemini 1.5 Pro用于标题优化和一致性检查，以及Gemini 2.5 Pro作为推理器来处理最终答案选择，所有这些都通过精心设计的少量样本和零样本提示进行协调。我们进行了一项广泛的消融研究，在英语数据集及其多语言增强版本上训练了几个大型语言模型（Gemini 2.5 Flash、Phi 4、Gemma 3、Mistral）。此外，我们评估了Gemini 2.5 Flash在零样本设置下的性能，并发现它明显优于训练后的模型。提示设计也被证明至关重要：强制执行简洁、语言规范化的格式并禁止解释性文本，将英语验证集上的模型准确率从55.9%提高到61.7%。在官方排行榜上，我们的系统（Team MSA）在多语言赛道中以81.4%的准确率获得总分第一名，并在13个独立语言赛道中的11个中领先，其中克罗地亚语的最高结果为95.07%，意大利语为92.12%。这些发现表明，轻量级OCR-VLM集成，当与精确的提示策略和跨语言增强相结合时，可以在高风险、多语言教育环境中胜过更重的端到端模型。

🔬 方法详解

问题定义：论文旨在解决多语言多模态推理问题，即如何让模型理解图像内容并用多种语言进行推理和回答问题。现有方法在处理复杂视觉信息、跨语言语义理解以及模型泛化能力方面存在痛点，尤其是在教育场景下，需要高准确率和鲁棒性。

核心思路：论文的核心思路是利用集成学习的思想，将多个视觉语言模型（VLM）的优势结合起来，通过分工合作和精心设计的提示，提高模型在多语言多模态推理任务上的性能。这种方法避免了单一模型在不同方面的局限性，并能更好地适应不同语言和视觉信息的特点。

技术框架：整体架构包含三个主要模块：1) 视觉描述模块，使用Gemini 2.5 Flash生成图像的文本描述；2) 标题优化模块，使用Gemini 1.5 Pro对描述进行润色和一致性检查；3) 推理模块，使用Gemini 2.5 Pro根据图像描述和问题选择最终答案。这三个模块通过精心设计的少量样本和零样本提示进行协调，形成一个完整的推理流程。

关键创新：最重要的技术创新点在于轻量级OCR-VLM集成与精确提示策略的结合。通过将多个VLM进行集成，并利用OCR技术提取图像中的文本信息，模型能够更全面地理解图像内容。同时，论文强调了提示设计的重要性，通过强制执行简洁、语言规范化的格式并禁止解释性文本，显著提高了模型的准确率。

关键设计：论文的关键设计包括：1) 使用Gemini系列模型，充分利用其强大的视觉和语言能力；2) 设计了针对不同模块的特定提示，引导模型完成相应的任务；3) 进行了跨语言数据增强，提高了模型在不同语言上的泛化能力；4) 通过消融实验，验证了各个模块和提示策略的有效性。

🖼️ 关键图片

📊 实验亮点

该系统在ImageCLEF 2025 EXAMS V挑战赛的多语言赛道中获得总分第一名，准确率达到81.4%。在13个独立语言赛道中的11个中领先，其中克罗地亚语的准确率高达95.07%，意大利语为92.12%。消融实验表明，精确的提示策略可以将英语验证集上的模型准确率从55.9%提高到61.7%。

🎯 应用场景

该研究成果可应用于多语言教育场景，例如自动阅卷、智能辅导等。此外，该方法还可以扩展到其他多模态应用领域，如跨语言图像搜索、多语言内容生成等，具有广泛的应用前景和实际价值。

📄 摘要（原文）

We present a robust ensemble-based system for multilingual multimodal reasoning, designed for the ImageCLEF 2025 EXAMS V challenge. Our approach integrates Gemini 2.5 Flash for visual description, Gemini 1.5 Pro for caption refinement and consistency checks, and Gemini 2.5 Pro as a reasoner which handles final answer selection, all coordinated through carefully engineered few-shot and zero-shot prompts. We conducted an extensive ablation study, training several large language models (Gemini 2.5 Flash, Phi 4, Gemma 3, Mistral) on an English dataset and its multilingual augmented version. Additionally, we evaluated Gemini 2.5 Flash in a zero-shot setting for comparison and found it to substantially outperform the trained models. Prompt design also proved critical: enforcing concise, language-normalized formats and prohibiting explanatory text boosted model accuracy on the English validation set from 55.9% to 61.7%. On the official leaderboard, our system (Team MSA) achieved first place overall in the multilingual track with 81.4% accuracy, and led 11 out of 13 individual language tracks, with top results such as 95.07% for Croatian and 92.12% for Italian. These findings highlight that lightweight OCR-VLM ensembles, when paired with precise prompt strategies and cross-lingual augmentation, can outperform heavier end-to-end models in high-stakes, multilingual educational settings.

MSA at ImageCLEF 2025 Multimodal Reasoning: Multilingual Multimodal Reasoning With Ensemble Vision Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理