Evalita-LLM: Benchmarking Large Language Models on Italian
作者: Bernardo Magnini, Roberto Zanoli, Michele Resta, Martin Cimmino, Paolo Albano, Marco Madeddu, Viviana Patti
分类: cs.CL
发布日期: 2025-02-04
备注: 42 pages, 1 figure, 32 tables
💡 一句话要点
Evalita-LLM:意大利语大型语言模型评测基准,解决文化偏见和提示敏感性问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 意大利语 评测基准 自然语言处理 生成式任务
📋 核心要点
- 现有LLM在意大利语任务中存在翻译偏差和文化适应性问题,影响了其性能和公平性。
- Evalita-LLM基准通过原生意大利语任务和生成式任务,更自然地评估LLM的语言理解和生成能力。
- 该基准采用迭代方法验证任务和提示,并使用多个提示评估,降低模型对特定提示的敏感性。
📝 摘要(中文)
本文介绍了Evalita-LLM,这是一个旨在评估大型语言模型(LLM)在意大利语任务上的新基准。Evalita-LLM的独特和创新之处在于:(i)所有任务都是原生的意大利语,避免了从意大利语翻译的问题和潜在的文化偏见;(ii)除了已建立的多项选择题任务外,该基准还包括生成式任务,从而能够与LLM进行更自然的交互;(iii)所有任务都针对多个提示进行评估,从而减轻了模型对特定提示的敏感性,并允许进行更公平和客观的评估。我们提出了一种迭代方法,其中候选任务和候选提示针对用于开发的一组LLM进行验证。我们报告了基准开发阶段的实验结果,并提供了几种最先进的LLM的性能统计数据。
🔬 方法详解
问题定义:现有的大型语言模型在处理意大利语任务时,常常依赖于翻译后的数据集,这引入了翻译偏差和文化差异,导致模型性能下降,并且无法真实反映模型在意大利语环境下的能力。此外,现有评估方法对提示词的选择非常敏感,不同的提示词可能导致模型性能的巨大差异,使得评估结果缺乏客观性和稳定性。
核心思路:Evalita-LLM的核心思路是构建一个完全基于原生意大利语的任务集合,避免翻译引入的偏差。同时,引入生成式任务,以更自然的方式与LLM进行交互,并采用多提示评估策略,降低模型对特定提示的敏感性,从而实现更公平、客观的评估。
技术框架:Evalita-LLM的构建采用迭代方法。首先,选择候选任务和候选提示。然后,使用一组用于开发的LLM对这些候选任务和提示进行验证。根据验证结果,对任务和提示进行调整和优化。这个过程不断迭代,直到获得一个高质量的基准。基准包含多项选择题和生成式任务,涵盖了不同的语言理解和生成能力。
关键创新:Evalita-LLM的关键创新在于其完全基于原生意大利语的任务设计,避免了翻译偏差。此外,引入生成式任务,使得评估更加自然和全面。最重要的是,采用多提示评估策略,显著降低了模型对特定提示的敏感性,提高了评估的客观性和可靠性。
关键设计:在任务设计方面,Evalita-LLM选择了涵盖不同语言理解和生成能力的任务,例如文本分类、问答、文本生成等。在提示设计方面,Evalita-LLM精心设计了多个不同的提示,以覆盖不同的表达方式和角度。在评估指标方面,Evalita-LLM采用了常用的准确率、F1值等指标,以及针对生成式任务的BLEU、ROUGE等指标。
🖼️ 关键图片
📊 实验亮点
Evalita-LLM的开发阶段实验结果表明,不同的LLM在意大利语任务上的表现存在显著差异。该基准能够有效区分不同模型的优劣,并揭示模型在特定任务上的弱点。通过多提示评估,可以观察到模型对不同提示的敏感程度,为模型优化提供指导。
🎯 应用场景
Evalita-LLM可用于评估和比较不同LLM在意大利语环境下的性能,推动LLM在意大利语自然语言处理任务中的应用,例如机器翻译、文本摘要、情感分析、对话系统等。该基准有助于开发更适应意大利语文化和语言习惯的LLM,提升用户体验。
📄 摘要(原文)
We describe Evalita-LLM, a new benchmark designed to evaluate Large Language Models (LLMs) on Italian tasks. The distinguishing and innovative features of Evalita-LLM are the following: (i) all tasks are native Italian, avoiding issues of translating from Italian and potential cultural biases; (ii) in addition to well established multiple-choice tasks, the benchmark includes generative tasks, enabling more natural interaction with LLMs; (iii) all tasks are evaluated against multiple prompts, this way mitigating the model sensitivity to specific prompts and allowing a fairer and objective evaluation. We propose an iterative methodology, where candidate tasks and candidate prompts are validated against a set of LLMs used for development. We report experimental results from the benchmark's development phase, and provide performance statistics for several state-of-the-art LLMs.