IberBench: LLM Evaluation on Iberian Languages

📄 arXiv: 2504.16921v1 📥 PDF

作者: José Ángel González, Ian Borrego Obrador, Álvaro Romo Herrero, Areg Mikael Sarvazyan, Mara Chinea-Ríos, Angelo Basile, Marc Franco-Salvador

分类: cs.CL

发布日期: 2025-04-23


💡 一句话要点

IberBench:伊比利亚语言LLM综合评测基准,解决非英语语言评测数据匮乏问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 评测基准 伊比利亚语言 自然语言处理 情感分析

📋 核心要点

  1. 现有LLM评测基准主要集中于英语,缺乏对伊比利亚半岛及伊比利亚-美洲语言的全面评估,忽略了语言多样性和工业相关任务。
  2. IberBench旨在构建一个全面且可扩展的基准,用于评估LLM在多种伊比利亚语言上的性能,涵盖基础NLP任务和工业相关任务。
  3. 通过对23个LLM的评估,IberBench揭示了LLM在不同语言和任务上的性能差异,并提供了开源的评估流程和排行榜。

📝 摘要(中文)

大型语言模型(LLMs)的全面评估仍然困难,尤其是在英语以外的语言中,高质量数据通常有限。现有的基准测试和排行榜主要以英语为中心,只有少数涉及其他语言。这些基准测试在几个关键领域存在不足:它们忽略了语言变体的多样性,优先考虑基本的自然语言处理(NLP)能力,而不是与工业相关的任务,并且是静态的。考虑到这些方面,我们提出了IberBench,这是一个全面且可扩展的基准,旨在评估LLM在伊比利亚半岛和伊比利亚-美洲使用的语言中,在基本和工业相关的NLP任务上的性能。IberBench集成了来自评估活动和最新基准测试的101个数据集,涵盖了22个任务类别,如情感和情绪分析、毒性检测和摘要。该基准通过支持持续更新和由专家委员会审核的社区驱动的模型和数据集提交,解决了当前评估实践中的关键限制,如缺乏语言多样性和静态评估设置。我们评估了23个参数范围从1亿到140亿的LLM,并提供了关于其优势和局限性的经验性见解。我们的研究结果表明,(i)LLM在工业相关任务上的表现比在基本任务上差,(ii)加利西亚语和巴斯克语的平均表现较低,(iii)一些任务显示的结果接近随机,(iv)在其他任务中,LLM的表现高于随机水平,但低于共享任务系统。IberBench为整个评估流程提供开源实现,包括数据集规范化和托管、LLM的增量评估以及可公开访问的排行榜。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)评估基准主要集中在英语上,对于伊比利亚半岛和伊比利亚-美洲使用的语言,缺乏足够的高质量数据和全面的评估体系。现有的基准测试忽略了语言变体的多样性,侧重于基础NLP能力而非工业相关任务,并且缺乏动态更新机制,难以适应快速发展的LLM技术。

核心思路:IberBench的核心思路是构建一个全面、可扩展且动态更新的LLM评估基准,专门针对伊比利亚语言。它整合了来自不同来源的大量数据集,涵盖了多种NLP任务,并允许社区参与模型和数据集的提交,从而保证了基准的持续更新和适应性。

技术框架:IberBench的技术框架主要包括以下几个模块:1) 数据集管理:收集、整理和规范化来自不同来源的101个数据集,涵盖22个任务类别。2) 模型评估:提供统一的评估接口,支持对各种LLM进行评估。3) 结果展示:通过公开的排行榜展示模型在不同任务上的性能。4) 社区参与:允许社区成员提交新的模型和数据集,并由专家委员会进行审核。

关键创新:IberBench的关键创新在于其对伊比利亚语言的专注和对工业相关任务的重视。与现有的以英语为中心的基准测试不同,IberBench旨在填补伊比利亚语言LLM评估的空白。此外,IberBench的动态更新机制和社区参与模式也使其能够更好地适应LLM技术的快速发展。

关键设计:IberBench的关键设计包括:1) 数据集选择:选择具有代表性和高质量的数据集,覆盖多种语言变体和任务类型。2) 评估指标:采用合适的评估指标来衡量模型在不同任务上的性能。3) 评估流程:设计高效且可重复的评估流程,保证评估结果的可靠性。4) 开源实现:提供开源的评估代码和数据集,方便研究人员使用和扩展。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

IberBench评估了23个LLM,发现LLM在工业相关任务上的表现不如基础任务,加利西亚语和巴斯克语的性能较低,部分任务结果接近随机水平,部分任务高于随机但低于共享任务系统。这些结果揭示了现有LLM在伊比利亚语言上的局限性,为未来的研究提供了方向。

🎯 应用场景

IberBench可应用于评估和改进LLM在伊比利亚语言上的性能,推动相关NLP技术的发展。该基准可用于比较不同LLM的优劣,指导模型训练和优化,并促进伊比利亚语言在工业应用中的落地,例如智能客服、机器翻译和内容生成等。

📄 摘要(原文)

Large Language Models (LLMs) remain difficult to evaluate comprehensively, particularly for languages other than English, where high-quality data is often limited. Existing benchmarks and leaderboards are predominantly English-centric, with only a few addressing other languages. These benchmarks fall short in several key areas: they overlook the diversity of language varieties, prioritize fundamental Natural Language Processing (NLP) capabilities over tasks of industrial relevance, and are static. With these aspects in mind, we present IberBench, a comprehensive and extensible benchmark designed to assess LLM performance on both fundamental and industry-relevant NLP tasks, in languages spoken across the Iberian Peninsula and Ibero-America. IberBench integrates 101 datasets from evaluation campaigns and recent benchmarks, covering 22 task categories such as sentiment and emotion analysis, toxicity detection, and summarization. The benchmark addresses key limitations in current evaluation practices, such as the lack of linguistic diversity and static evaluation setups by enabling continual updates and community-driven model and dataset submissions moderated by a committee of experts. We evaluate 23 LLMs ranging from 100 million to 14 billion parameters and provide empirical insights into their strengths and limitations. Our findings indicate that (i) LLMs perform worse on industry-relevant tasks than in fundamental ones, (ii) performance is on average lower for Galician and Basque, (iii) some tasks show results close to random, and (iv) in other tasks LLMs perform above random but below shared task systems. IberBench offers open-source implementations for the entire evaluation pipeline, including dataset normalization and hosting, incremental evaluation of LLMs, and a publicly accessible leaderboard.