CLARIN-PT-LDB: An Open LLM Leaderboard for Portuguese to assess Language, Culture and Civility

📄 arXiv: 2603.12872v1 📥 PDF

作者: João Silva, Luís Gomes, António Branco

分类: cs.CL

发布日期: 2026-03-13

备注: Accepted at PROPOR 2026

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

构建葡萄牙语开放LLM排行榜,评估语言、文化和文明程度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 葡萄牙语LLM 开放排行榜 语言评估 文化适应性 模型安全 基准测试 欧洲葡萄牙语

📋 核心要点

  1. 现有欧洲葡萄牙语LLM评估缺乏专门的排行榜,限制了对模型性能的全面评估。
  2. 构建开放LLM排行榜,并设计新的基准,以评估模型在语言、文化和文明方面的表现。
  3. 该排行榜已在Hugging Face Spaces上发布,为研究人员和开发者提供了一个评估和比较模型的平台。

📝 摘要(中文)

本文介绍了为欧洲葡萄牙语(PT-PT)开发的开放大型语言模型(LLM)排行榜及其相关基准。该排行榜旨在填补欧洲葡萄牙语LLM评估方面的空白,此前尚无专门针对该语言变体的排行榜。本文还介绍了新的基准,包括一些针对欧洲葡萄牙语基准中尚未提供的性能方面,即模型安全措施和与葡萄牙文化的对齐。

🔬 方法详解

问题定义:当前缺乏针对欧洲葡萄牙语的开放LLM排行榜,导致无法系统性地评估和比较不同模型在该语言上的表现,尤其是在文化契合度和安全性方面。现有基准测试可能无法充分捕捉葡萄牙语的细微差别和文化背景,从而影响模型的实际应用效果。

核心思路:核心思路是创建一个公开可访问的排行榜,并设计一套全面的基准测试,以评估LLM在欧洲葡萄牙语上的语言能力、文化敏感性和文明程度。通过提供标准化的评估框架,促进该语言LLM的开发和改进。

技术框架:该技术框架主要包含两个部分:一是LLM排行榜的构建,选择合适的平台(Hugging Face Spaces)进行部署和维护;二是基准测试的设计,包括语言理解、文化适应性和安全性等多个维度。具体流程包括:收集和整理现有的欧洲葡萄牙语LLM,设计并实现新的评估基准,运行基准测试并记录结果,最后将结果展示在排行榜上。

关键创新:关键创新在于针对欧洲葡萄牙语的文化特性和安全需求,设计了新的评估基准。这些基准不仅关注模型的语言能力,还关注其对葡萄牙文化的理解和尊重,以及避免生成有害或不当内容的能力。这弥补了现有基准测试的不足,更全面地评估了LLM在实际应用中的表现。

关键设计:基准测试的设计包括多个方面,例如,使用葡萄牙语的常识推理数据集来评估模型的语言理解能力;使用包含葡萄牙文化元素的文本来评估模型的文化适应性;使用对抗性提示来评估模型的安全性。具体的参数设置和损失函数取决于所使用的评估指标和模型类型,但总体目标是确保评估的准确性和可靠性。

🖼️ 关键图片

fig_0

📊 实验亮点

该研究的主要亮点在于构建了首个针对欧洲葡萄牙语的开放LLM排行榜,并设计了新的基准测试,特别关注了模型的文化适应性和安全性。虽然论文中没有提供具体的性能数据,但该排行榜的发布为研究人员和开发者提供了一个重要的评估工具,促进了该领域的发展。

🎯 应用场景

该研究成果可应用于各种需要葡萄牙语LLM的场景,例如智能客服、内容创作、机器翻译等。通过排行榜,开发者可以更好地了解不同模型的优缺点,选择最适合其应用的模型。此外,该研究还有助于推动葡萄牙语LLM的开发和改进,促进该语言在人工智能领域的应用。

📄 摘要(原文)

This paper reports on the development of a leaderboard of Open Large Language Models (LLM) for European Portuguese (PT-PT), and on its associated benchmarks. This leaderboard comes as a way to address a gap in the evaluation of LLM for European Portuguese, which so far had no leaderboard dedicated to this variant of the language. The paper also reports on novel benchmarks, including some that address aspects of performance that so far have not been available in benchmarks for European Portuguese, namely model safeguards and alignment to Portuguese culture. The leaderboard is available at https://huggingface.co/spaces/PORTULAN/portuguese-llm-leaderboard.