MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks
作者: Sara Papi, Maike Züfle, Marco Gaido, Beatrice Savoldi, Danni Liu, Ioannis Douros, Luisa Bentivogli, Jan Niehues
分类: cs.CL, cs.AI, cs.CV, cs.SD
发布日期: 2025-07-25 (更新: 2025-10-23)
备注: Data available at https://huggingface.co/datasets/FBK-MT/MCIF | Evaluation and baselines available at https://github.com/hlt-mt/mcif
💡 一句话要点
MCIF:首个基于科学讲座的多语言跨模态指令跟随基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 跨语言理解 指令跟随 科学讲座 基准测试
📋 核心要点
- 现有MLLM基准测试在多语言、多模态和长文本指令跟随方面存在不足,限制了模型能力的全面评估。
- MCIF基准通过科学讲座数据,提供多语言(英、德、意、中)、多模态(语音、视觉、文本)的长短文本指令跟随评估。
- MCIF是首个多语言人工标注的跨模态指令跟随基准,旨在促进MLLM在复杂场景下的能力提升。
📝 摘要(中文)
大型语言模型(LLM)的最新进展催生了多模态LLM(MLLM)的发展,它们在统一的框架内集成了文本、语音和视觉。随着MLLM从狭窄的、单语的、特定任务的系统发展为通用指令跟随模型,一个关键的前沿领域在于评估它们在长短上下文中的多语言和多模态能力。然而,现有的基准在联合评估这些维度方面存在不足:它们通常仅限于英语,主要侧重于一次一种模态,依赖于短上下文,或者缺乏人工标注,从而阻碍了对模型在语言、模态和任务复杂性方面的性能进行全面评估。为了解决这些差距,我们引入了MCIF(多模态跨语言指令跟随),这是第一个基于科学讲座的多语言人工标注基准,旨在评估跨语言、多模态设置中长短输入的指令跟随能力。MCIF涵盖了三个核心模态——语音、视觉和文本——以及四种不同的语言(英语、德语、意大利语和中文),从而能够全面评估MLLM解释跨语言指令并将其与多模态上下文信息相结合的能力。MCIF在CC-BY 4.0许可下发布,以鼓励MLLM开发的开放研究和进步。
🔬 方法详解
问题定义:现有的大型语言模型在多语言和多模态的指令跟随任务中表现不足,尤其是在处理长文本上下文时。现有的基准测试通常只关注单语或单模态,缺乏对模型跨语言理解和多模态信息融合能力的综合评估。此外,缺乏高质量的人工标注数据也限制了模型性能的有效评估。
核心思路:MCIF的核心思路是构建一个更全面、更具挑战性的基准测试,以评估MLLM在多语言、多模态和长文本上下文中的指令跟随能力。通过引入科学讲座数据,该基准能够模拟更真实的复杂场景,并提供高质量的人工标注,从而更准确地评估模型的性能。
技术框架:MCIF基准测试包含三个核心模态:语音、视觉和文本。它涵盖四种语言:英语、德语、意大利语和中文。数据来源于科学讲座,包含长短两种形式的输入。整个流程包括数据收集、数据清洗、人工标注和基准测试的构建。标注过程确保了数据的质量和一致性,从而为MLLM的评估提供可靠的基础。
关键创新:MCIF的关键创新在于其多语言、多模态和长文本的综合性。与现有的基准测试相比,MCIF能够更全面地评估MLLM在复杂场景下的指令跟随能力。此外,人工标注的引入也提高了数据的质量和可靠性,从而为模型性能的评估提供了更准确的依据。
关键设计:MCIF的数据来源于科学讲座,这些讲座涵盖了各种主题,并提供了丰富的多模态信息。标注过程由专业的标注人员完成,他们根据预定义的指南对数据进行标注。基准测试的设计考虑了不同的任务类型和难度级别,从而能够更全面地评估模型的性能。具体的参数设置和损失函数取决于所使用的MLLM模型。
🖼️ 关键图片
📊 实验亮点
MCIF基准测试包含四种语言和三种模态,是首个多语言人工标注的跨模态指令跟随基准。它为评估MLLM在复杂场景下的指令跟随能力提供了新的工具。具体的性能数据和对比基线将在后续的研究中公布,预计MCIF将推动MLLM在多语言和多模态理解方面的显著提升。
🎯 应用场景
MCIF基准的潜在应用领域包括多语言智能助手、跨文化交流、教育和科研等。该基准可以促进MLLM在处理复杂、多模态信息方面的能力提升,从而为用户提供更智能、更个性化的服务。未来,该基准可以扩展到更多的语言和模态,以适应更广泛的应用场景。
📄 摘要(原文)
Recent advances in large language models have catalyzed the development of multimodal LLMs (MLLMs) that integrate text, speech, and vision within unified frameworks. As MLLMs evolve from narrow, monolingual, task-specific systems to general-purpose instruction-following models, a key frontier lies in evaluating their multilingual and multimodal capabilities over both long and short contexts. However, existing benchmarks fall short in evaluating these dimensions jointly: they are often limited to English, mostly focus on one single modality at a time, rely on short-form contexts, or lack human annotations -- hindering comprehensive assessment of model performance across languages, modalities, and task complexity. To address these gaps, we introduce MCIF (Multimodal Crosslingual Instruction Following), the first multilingual human-annotated benchmark based on scientific talks that is designed to evaluate instruction-following in crosslingual, multimodal settings over both short- and long-form inputs. MCIF spans three core modalities -- speech, vision, and text -- and four diverse languages (English, German, Italian, and Chinese), enabling a comprehensive evaluation of MLLMs' abilities to interpret instructions across languages and combine them with multimodal contextual information. MCIF is released under a CC-BY 4.0 license to encourage open research and progress in MLLMs development.