Evalita-LLM: Benchmarking Large Language Models on Italian

作者: Bernardo Magnini, Roberto Zanoli, Michele Resta, Martin Cimmino, Paolo Albano, Marco Madeddu, Viviana Patti

分类: cs.CL

发布日期: 2025-02-04

备注: 42 pages, 1 figure, 32 tables

💡 一句话要点

Evalita-LLM：意大利语大型语言模型评测基准，解决文化偏见和提示敏感性问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 意大利语 评测基准 自然语言处理 生成式任务

📋 核心要点

现有LLM在意大利语任务中存在翻译偏差和文化适应性问题，影响了其性能和公平性。
Evalita-LLM基准通过原生意大利语任务和生成式任务，更自然地评估LLM的语言理解和生成能力。
该基准采用迭代方法验证任务和提示，并使用多个提示评估，降低模型对特定提示的敏感性。

📝 摘要（中文）

本文介绍了Evalita-LLM，这是一个旨在评估大型语言模型（LLM）在意大利语任务上的新基准。Evalita-LLM的独特和创新之处在于：（i）所有任务都是原生的意大利语，避免了从意大利语翻译的问题和潜在的文化偏见；（ii）除了已建立的多项选择题任务外，该基准还包括生成式任务，从而能够与LLM进行更自然的交互；（iii）所有任务都针对多个提示进行评估，从而减轻了模型对特定提示的敏感性，并允许进行更公平和客观的评估。我们提出了一种迭代方法，其中候选任务和候选提示针对用于开发的一组LLM进行验证。我们报告了基准开发阶段的实验结果，并提供了几种最先进的LLM的性能统计数据。

🔬 方法详解

问题定义：现有的大型语言模型在处理意大利语任务时，常常依赖于翻译后的数据集，这引入了翻译偏差和文化差异，导致模型性能下降，并且无法真实反映模型在意大利语环境下的能力。此外，现有评估方法对提示词的选择非常敏感，不同的提示词可能导致模型性能的巨大差异，使得评估结果缺乏客观性和稳定性。

核心思路：Evalita-LLM的核心思路是构建一个完全基于原生意大利语的任务集合，避免翻译引入的偏差。同时，引入生成式任务，以更自然的方式与LLM进行交互，并采用多提示评估策略，降低模型对特定提示的敏感性，从而实现更公平、客观的评估。

技术框架：Evalita-LLM的构建采用迭代方法。首先，选择候选任务和候选提示。然后，使用一组用于开发的LLM对这些候选任务和提示进行验证。根据验证结果，对任务和提示进行调整和优化。这个过程不断迭代，直到获得一个高质量的基准。基准包含多项选择题和生成式任务，涵盖了不同的语言理解和生成能力。

关键创新：Evalita-LLM的关键创新在于其完全基于原生意大利语的任务设计，避免了翻译偏差。此外，引入生成式任务，使得评估更加自然和全面。最重要的是，采用多提示评估策略，显著降低了模型对特定提示的敏感性，提高了评估的客观性和可靠性。

关键设计：在任务设计方面，Evalita-LLM选择了涵盖不同语言理解和生成能力的任务，例如文本分类、问答、文本生成等。在提示设计方面，Evalita-LLM精心设计了多个不同的提示，以覆盖不同的表达方式和角度。在评估指标方面，Evalita-LLM采用了常用的准确率、F1值等指标，以及针对生成式任务的BLEU、ROUGE等指标。

🖼️ 关键图片

📊 实验亮点

Evalita-LLM的开发阶段实验结果表明，不同的LLM在意大利语任务上的表现存在显著差异。该基准能够有效区分不同模型的优劣，并揭示模型在特定任务上的弱点。通过多提示评估，可以观察到模型对不同提示的敏感程度，为模型优化提供指导。

🎯 应用场景

Evalita-LLM可用于评估和比较不同LLM在意大利语环境下的性能，推动LLM在意大利语自然语言处理任务中的应用，例如机器翻译、文本摘要、情感分析、对话系统等。该基准有助于开发更适应意大利语文化和语言习惯的LLM，提升用户体验。

📄 摘要（原文）

We describe Evalita-LLM, a new benchmark designed to evaluate Large Language Models (LLMs) on Italian tasks. The distinguishing and innovative features of Evalita-LLM are the following: (i) all tasks are native Italian, avoiding issues of translating from Italian and potential cultural biases; (ii) in addition to well established multiple-choice tasks, the benchmark includes generative tasks, enabling more natural interaction with LLMs; (iii) all tasks are evaluated against multiple prompts, this way mitigating the model sensitivity to specific prompts and allowing a fairer and objective evaluation. We propose an iterative methodology, where candidate tasks and candidate prompts are validated against a set of LLMs used for development. We report experimental results from the benchmark's development phase, and provide performance statistics for several state-of-the-art LLMs.

Evalita-LLM: Benchmarking Large Language Models on Italian

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理