Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

📄 arXiv: 2603.16406v1 📥 PDF

作者: Finnur Ágúst Ingimundarson, Steinunn Rut Friðriksdóttir, Bjarki Ármannsson, Iris Edda Nowenstein, Steinþór Steingrímsson

分类: cs.CL, cs.AI

发布日期: 2026-03-17

备注: Accepted to LREC 2026


💡 一句话要点

针对冰岛语LLM评测,揭示合成/机器翻译数据偏差问题,呼吁改进低资源语言评测方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 低资源语言 冰岛语 评测基准 机器翻译 数据质量 误差分析

📋 核心要点

  1. 现有冰岛语LLM评测基准依赖未经验证的合成或机器翻译数据,导致测试用例存在严重缺陷。
  2. 论文通过定量误差分析,对比人工与合成/机器翻译基准的差异,揭示数据偏差问题。
  3. 研究结果呼吁改进低/中等资源语言的LLM评测方法,避免盲目使用未经验证的合成数据。

📝 摘要(中文)

本文评估了当前针对冰岛语的大型语言模型(LLM)评测基准,指出了存在的问题,并呼吁改进特别是在低/中等资源语言中的评估方法。我们表明,包含未经任何方式验证的合成或机器翻译数据的基准,通常包含严重缺陷的测试用例,这些用例可能会扭曲结果并损害测试的有效性。我们警告说,在低/中等资源环境中,未经验证就使用此类方法是不可取的,因为在任何给定时间,翻译质量充其量只能与给定语言的机器翻译质量一样好。事实上,我们对现有冰岛语基准的定量误差分析结果表明,人工编写/翻译的基准与合成或机器翻译的基准之间存在明显差异。

🔬 方法详解

问题定义:论文旨在解决低资源语言(特别是冰岛语)的大型语言模型(LLM)评测基准中存在的问题。现有方法主要依赖于合成数据或机器翻译数据来构建评测集,但这些数据未经充分验证,可能包含大量错误,导致评测结果失真,无法真实反映模型在目标语言上的性能。现有方法的痛点在于缺乏对低资源语言数据的质量控制,以及对机器翻译质量的过度信任。

核心思路:论文的核心思路是通过对现有冰岛语LLM评测基准进行定量误差分析,揭示合成数据和机器翻译数据中存在的偏差。通过对比人工编写/翻译的基准与合成/机器翻译的基准,量化不同类型数据对评测结果的影响。基于分析结果,论文呼吁改进低资源语言的LLM评测方法,强调数据质量的重要性,并建议采用更严格的数据验证流程。

技术框架:论文采用定量误差分析的方法,对现有冰岛语LLM评测基准中的测试用例进行错误标注和分类。具体流程包括:1) 收集现有的冰岛语LLM评测基准;2) 对基准中的测试用例进行人工审查,标注错误类型(如语法错误、语义错误、翻译错误等);3) 将测试用例按照数据来源(人工编写/翻译、合成数据、机器翻译数据)进行分类;4) 对不同类型的数据进行错误率统计和对比分析,评估数据质量对评测结果的影响。

关键创新:论文的关键创新在于对低资源语言LLM评测基准的数据质量问题进行了系统性的研究和量化分析。以往的研究往往忽略了低资源语言数据的特殊性,直接套用高资源语言的评测方法。本文首次揭示了合成数据和机器翻译数据在低资源语言评测中可能存在的偏差,为改进低资源语言的LLM评测方法提供了重要的理论依据。

关键设计:论文的关键设计在于错误标注体系的设计和定量分析方法的选择。错误标注体系需要覆盖低资源语言中常见的错误类型,如词法错误、句法错误、语义错误、翻译错误等。定量分析方法需要能够有效地对比不同类型数据之间的差异,如错误率、错误类型分布等。具体的参数设置和网络结构等技术细节未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

研究结果表明,在冰岛语LLM评测中,使用未经验证的合成或机器翻译数据会导致评测结果出现偏差。定量误差分析显示,人工编写/翻译的基准与合成/机器翻译的基准之间存在显著差异,表明数据质量对评测结果有重要影响。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于改进低资源语言的大型语言模型评测体系,提升评测结果的可靠性和有效性。通过更准确地评估模型性能,可以促进低资源语言自然语言处理技术的发展,并推动相关应用在教育、文化传承、信息检索等领域的落地。

📄 摘要(原文)

This paper evaluates current Large Language Model (LLM) benchmarking for Icelandic, identifies problems, and calls for improved evaluation methods in low/medium-resource languages in particular. We show that benchmarks that include synthetic or machine-translated data that have not been verified in any way, commonly contain severely flawed test examples that are likely to skew the results and undermine the tests' validity. We warn against the use of such methods without verification in low/medium-resource settings as the translation quality can, at best, only be as good as MT quality for a given language at any given time. Indeed, the results of our quantitative error analysis on existing benchmarks for Icelandic show clear differences between human-authored/-translated benchmarks vs. synthetic or machine-translated benchmarks.