La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America
作者: María Grandury, Javier Aula-Blasco, Júlia Falcão, Clémentine Fourrier, Miguel González, Gonzalo Martínez, Gonzalo Santamaría, Rodrigo Agerri, Nuria Aldama, Luis Chiruzzo, Javier Conde, Helena Gómez, Marta Guerrero, Guido Ivetta, Natalia López, Flor Miriam Plaza-del-Arco, María Teresa Martín-Valdivia, Helena Montoro, Carmen Muñoz, Pedro Reviriego, Leire Rosado, Alejandro Vaca, María Estrella Vallecillo-Rodríguez, Jorge Vallego, Irune Zubiaga
分类: cs.CL
发布日期: 2025-07-01
备注: Accepted at ACL 2025 Main
💡 一句话要点
提出La Leaderboard,用于评估西班牙语及其变体的LLM性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 西班牙语 排行榜 自然语言处理 多语言 评估基准 社区驱动
📋 核心要点
- 现有LLM在西班牙语及其变体的语言和文化多样性方面存在不足,缺乏针对性评估。
- La Leaderboard通过构建开源排行榜,提供统一的评估标准,促进西班牙语LLM的发展。
- 该排行榜包含66个数据集,评估了50个模型,并采用更少的few-shot示例以降低环境影响。
📝 摘要(中文)
本文介绍了La Leaderboard,这是一个开源的排行榜,旨在评估西班牙及其拉丁美洲不同语言和语言变体的生成式大型语言模型(LLM)。该项目旨在推动LLM的发展,使其更好地代表西班牙语社区的语言和文化多样性。La Leaderboard是一个社区驱动的项目,致力于为所有对开发西班牙语LLM感兴趣的人建立评估标准。初始版本包含66个巴斯克语、加泰罗尼亚语、加利西亚语和不同西班牙语变体的数据集,并展示了50个模型的评估结果。为了鼓励社区驱动的其他语言排行榜开发,本文还解释了其方法论,包括为每个下游任务选择最合适的评估设置的指南。特别地,本文阐述了使用比文献中通常更少的few-shot示例的原因,旨在减少环境影响,并为更广泛的研究社区提供对可复现结果的访问。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)在处理西班牙语及其各种变体时,往往表现出对语言和文化多样性的不足。缺乏一个专门针对西班牙语社区的综合性评估基准,使得难以准确衡量和比较不同LLM在这些语言上的性能。此外,传统的few-shot学习方法需要大量的计算资源,对环境造成影响,并且限制了研究的可复现性。
核心思路:La Leaderboard的核心思路是创建一个开源的、社区驱动的评估平台,专门用于衡量LLM在西班牙语及其变体上的表现。通过收集和整合各种相关的西班牙语数据集,并提供标准化的评估流程,La Leaderboard旨在促进LLM在西班牙语社区的语言和文化适应性。同时,通过减少few-shot示例的数量,降低计算成本和环境影响,提高研究的可访问性和可复现性。
技术框架:La Leaderboard的整体框架包括以下几个主要组成部分:1) 数据集收集与整理:收集涵盖巴斯克语、加泰罗尼亚语、加利西亚语和不同西班牙语变体的66个数据集。2) 模型评估:使用标准化的评估流程,对50个LLM进行评估。3) 排行榜生成:根据评估结果,生成LLM的性能排行榜。4) 方法论文档:提供详细的方法论文档,指导用户如何选择合适的评估设置,并鼓励社区参与贡献。
关键创新:La Leaderboard的关键创新在于:1) 它是第一个专门针对西班牙语及其变体的LLM评估排行榜。2) 它采用了社区驱动的开发模式,鼓励广泛的参与和贡献。3) 它通过减少few-shot示例的数量,降低了计算成本和环境影响。4) 它提供了详细的方法论文档,促进了研究的可复现性和可访问性。
关键设计:在数据集选择方面,La Leaderboard注重覆盖西班牙语及其变体的多样性,包括不同地区的口音、方言和文化背景。在评估设置方面,La Leaderboard采用了较少的few-shot示例,以降低计算成本和环境影响。具体而言,few-shot示例的数量根据任务的复杂程度进行调整,以在性能和效率之间取得平衡。此外,La Leaderboard还提供了详细的评估指标和流程,确保评估结果的可靠性和可比性。
🖼️ 关键图片
📊 实验亮点
La Leaderboard评估了50个模型在66个数据集上的性能,涵盖巴斯克语、加泰罗尼亚语、加利西亚语和不同西班牙语变体。通过减少few-shot示例,降低了评估的计算成本和环境影响,同时保持了评估结果的有效性。该排行榜为西班牙语LLM的研究和开发提供了一个重要的参考基准。
🎯 应用场景
La Leaderboard可应用于评估和改进西班牙语LLM,促进其在西班牙语地区的自然语言处理应用,如智能客服、机器翻译、内容生成等。它有助于开发更贴合当地文化和语言习惯的AI产品,提升用户体验,并推动西班牙语自然语言处理领域的研究。
📄 摘要(原文)
Leaderboards showcase the current capabilities and limitations of Large Language Models (LLMs). To motivate the development of LLMs that represent the linguistic and cultural diversity of the Spanish-speaking community, we present La Leaderboard, the first open-source leaderboard to evaluate generative LLMs in languages and language varieties of Spain and Latin America. La Leaderboard is a community-driven project that aims to establish an evaluation standard for everyone interested in developing LLMs for the Spanish-speaking community. This initial version combines 66 datasets in Basque, Catalan, Galician, and different Spanish varieties, showcasing the evaluation results of 50 models. To encourage community-driven development of leaderboards in other languages, we explain our methodology, including guidance on selecting the most suitable evaluation setup for each downstream task. In particular, we provide a rationale for using fewer few-shot examples than typically found in the literature, aiming to reduce environmental impact and facilitate access to reproducible results for a broader research community.