MateInfoUB: A Real-World Benchmark for Testing LLMs in Competitive, Multilingual, and Multimodal Educational Tasks

作者: Dumitran Adrian Marius, Theodor-Pierre Moroianu, Buca Mihnea-Vicentiu

分类: cs.CY, cs.AI, cs.CL, cs.LG

发布日期: 2025-07-03

备注: 14 pages (9 paper, 2 references, 3 annexes). Accepted for BEA 2025!

💡 一句话要点

MateInfoUB：用于评估LLM在多语言多模态竞赛教育任务中的真实世界基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 计算机科学教育 多模态学习 双语数据集 基准测试 理论编程 教育评估

📋 核心要点

现有LLM在高级计算机科学教育中的潜力和局限性尚不明确，缺乏针对性评估。
构建双语（英-罗）多模态（文本-图像）数据集，问题设计兼顾推理和编程两种解决方式。
系统评估了SOTA LLM在理论编程任务上的表现，分析了语言选择的影响，并讨论了伦理问题。

📝 摘要（中文）

大型语言模型（LLM）的快速发展已经改变了各个领域，尤其是在计算机科学（CS）教育领域。这些模型在代码相关任务和问题解决方面表现出卓越的能力，引发了关于它们在高级CS环境中的潜力和局限性的问题。本研究提出了一个新的双语（英语-罗马尼亚语）多模态（文本和图像）多项选择题数据集，该数据集来源于高级计算机科学竞赛。我们数据集的一个特点是，这些问题被设计成有些问题更容易通过纸上推理解决，而另一些问题则通过编写代码更有效。我们系统地评估了最先进的LLM在这个数据集上，分析了它们在理论编程任务中的表现。我们的研究结果揭示了当前LLM的优势和局限性，包括语言选择（英语与罗马尼亚语）的影响，从而深入了解了它们在CS教育和竞赛环境中的适用性。我们还讨论了围绕教育诚信和在使用LLM的背景下评估的公平性的关键伦理考量。这些讨论旨在为未来的教育实践和政策提供信息。为了支持进一步的研究，我们的数据集将以英语和罗马尼亚语公开提供。此外，我们发布了一个为罗马尼亚学生量身定制的教育应用程序，使他们能够在交互式和实践导向的环境中使用数据集进行自我评估。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLM）在高级计算机科学教育场景下的能力，特别是解决竞赛级别的理论编程问题。现有方法缺乏一个专门针对LLM在多语言、多模态环境下的评估基准，无法充分衡量其在复杂问题解决中的优势与不足。此外，现有数据集可能无法区分LLM擅长推理还是擅长编程，导致评估结果不够全面。

核心思路：论文的核心思路是构建一个真实世界的多语言、多模态数据集，该数据集包含来自高水平计算机科学竞赛的多项选择题。这些问题被精心设计，使得一部分问题更适合通过纸上推理解决，而另一部分问题更适合通过编写代码解决。通过分析LLM在不同类型问题上的表现，可以更全面地了解其能力和局限性。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 从高水平计算机科学竞赛中收集多项选择题；2) 将问题翻译成英语和罗马尼亚语，构建双语数据集；3) 为每个问题添加相关的图像信息，构建多模态数据集；4) 选择一系列最先进的LLM进行评估；5) 分析LLM在不同类型问题和不同语言上的表现，并进行伦理讨论。

关键创新：论文的关键创新在于构建了一个真实世界、多语言、多模态的计算机科学竞赛数据集，该数据集专门用于评估LLM在高级教育场景下的能力。该数据集的另一个创新之处在于，问题设计兼顾了推理和编程两种解决方式，可以更全面地评估LLM的能力。

关键设计：数据集包含英语和罗马尼亚语两种语言，以评估LLM的跨语言能力。问题包含文本描述和图像信息，以评估LLM的多模态理解能力。问题类型包括理论编程问题，旨在评估LLM的编程能力和推理能力。论文未提及具体的参数设置、损失函数或网络结构，因为其重点在于数据集的构建和评估，而非提出新的LLM模型。

🖼️ 关键图片

📊 实验亮点

该研究构建了一个新的双语（英语-罗马尼亚语）多模态（文本和图像）数据集，用于评估LLM在计算机科学竞赛问题上的表现。实验结果揭示了当前LLM在理论编程任务中的优势和局限性，并分析了语言选择对性能的影响。该数据集和评估结果为进一步研究LLM在教育领域的应用提供了宝贵资源。

🎯 应用场景

该研究成果可应用于计算机科学教育领域，帮助教师了解LLM在教学中的潜在作用和局限性。该数据集可作为评估LLM在解决复杂编程问题能力的标准基准。此外，该研究还可用于开发更有效的LLM辅助学习工具，并为教育政策的制定提供参考，以应对LLM带来的伦理挑战。

📄 摘要（原文）

The rapid advancement of Large Language Models (LLMs) has transformed various domains, particularly computer science (CS) education. These models exhibit remarkable capabilities in code-related tasks and problem-solving, raising questions about their potential and limitations in advanced CS contexts. This study presents a novel bilingual (English-Romanian) multimodal (text and image) dataset of multiple-choice questions derived from a high-level computer science competition. A particularity of our dataset is that the problems are conceived such that some of them are easier solved using reasoning on paper, while for others writing code is more efficient. We systematically evaluate State of The Art LLMs on this dataset, analyzing their performance on theoretical programming tasks. Our findings reveal the strengths and limitations of current LLMs, including the influence of language choice (English vs. Romanian), providing insights into their applicability in CS education and competition settings. We also address critical ethical considerations surrounding educational integrity and the fairness of assessments in the context of LLM usage. These discussions aim to inform future educational practices and policies. To support further research, our dataset will be made publicly available in both English and Romanian. Additionally, we release an educational application tailored for Romanian students, enabling them to self-assess using the dataset in an interactive and practice-oriented environment.

MateInfoUB: A Real-World Benchmark for Testing LLMs in Competitive, Multilingual, and Multimodal Educational Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理