FIN-bench-v2: A Unified and Robust Benchmark Suite for Evaluating Finnish Large Language Models
作者: Joona Kytöniemi, Jousia Piha, Akseli Reunamo, Fedor Vitiugin, Farrokh Mehryary, Sampo Pyysalo
分类: cs.CL, cs.AI
发布日期: 2025-12-15
💡 一句话要点
FIN-bench-v2:用于评估芬兰语大型语言模型的统一且鲁棒的基准套件
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 芬兰语 大型语言模型 基准测试 自然语言处理 模型评估 鲁棒性 指令调整 数据集
📋 核心要点
- 现有芬兰语LLM缺乏统一且鲁棒的评估基准,难以全面评估模型能力。
- FIN-bench-v2整合现有基准,并进行人工审核和格式统一,提供可靠的评估平台。
- 通过预训练小模型筛选任务,保证基准的鲁棒性,并评估大型指令调整模型的性能。
📝 摘要(中文)
我们推出了FIN-bench-v2,这是一个用于评估芬兰语大型语言模型的统一基准套件。FIN-bench-v2将广泛使用的基准的芬兰语版本与原始FIN-bench的更新和扩展版本整合到一个一致格式的集合中,涵盖阅读理解、常识推理、情感分析、世界知识和对齐等方面的多项选择和生成任务。所有数据集都转换为HuggingFace Datasets,其中包括每个任务的五个变体的完形填空和多项选择提示公式,并且我们为机器翻译的资源(如GoldenSwag和XED)加入了人工注释或审查。为了选择鲁棒的任务,我们预训练了一组21.5亿参数的仅解码器模型,并使用它们的学习曲线来计算单调性、信噪比、非随机性能和模型排序一致性,仅保留满足所有标准的任务。我们进一步评估了一组更大的指令调整模型,以表征跨任务和提示公式的性能。所有数据集、提示和评估配置均通过我们在https://github.com/LumiOpen/lm-evaluation-harness 的Language Model Evaluation Harness的分支公开发布。补充资源在https://github.com/TurkuNLP/FIN-bench-v2 的单独存储库中发布。
🔬 方法详解
问题定义:现有芬兰语大型语言模型(LLM)的评估缺乏一个统一且鲁棒的基准。现有的基准数据集分散,格式不一致,且部分数据集质量不高(例如,机器翻译引入的噪声),难以对模型进行全面、可靠的评估。这阻碍了芬兰语LLM的发展和比较。
核心思路:FIN-bench-v2的核心思路是构建一个高质量、统一格式的芬兰语LLM评估基准。通过整合现有资源、人工审核和数据清洗,以及基于小模型学习曲线的任务筛选,确保基准的鲁棒性和可靠性。同时,提供多种提示方式,以更全面地评估模型能力。
技术框架:FIN-bench-v2的构建流程主要包括以下几个阶段:1) 数据集整合:收集并整合现有的芬兰语基准数据集,包括阅读理解、常识推理、情感分析、世界知识和对齐等任务。2) 数据格式统一:将所有数据集转换为HuggingFace Datasets格式,并提供统一的API接口。3) 数据质量提升:对机器翻译的数据集进行人工审核和修正,减少噪声。4) 任务筛选:预训练一组小模型,并根据其学习曲线的单调性、信噪比等指标筛选出鲁棒的任务。5) 性能评估:使用筛选后的基准评估大型指令调整模型的性能,并分析不同提示方式的影响。
关键创新:FIN-bench-v2的关键创新在于其鲁棒的任务筛选机制。通过预训练小模型并分析其学习曲线,可以有效地识别出对模型性能具有区分度的任务,避免了使用噪声或过于简单的任务。此外,人工审核和数据清洗也显著提高了数据集的质量。
关键设计:在任务筛选阶段,使用了21.5亿参数的仅解码器模型进行预训练。学习曲线的评估指标包括单调性(monotonicity)、信噪比(signal-to-noise)、非随机性能(non-random performance)和模型排序一致性(model ordering consistency)。只有满足所有这些指标的任务才会被保留。此外,每个任务都提供了五种不同的提示变体,包括完形填空和多项选择两种形式。
📊 实验亮点
FIN-bench-v2通过预训练小模型并分析学习曲线,筛选出鲁棒的任务,保证了基准的可靠性。对机器翻译数据集进行人工审核,提高了数据质量。实验评估了多个大型指令调整模型,并分析了不同提示方式对性能的影响。具体性能数据和对比基线未在摘要中明确给出,需参考论文全文。
🎯 应用场景
FIN-bench-v2可用于评估和比较不同的芬兰语大型语言模型,推动芬兰语自然语言处理技术的发展。该基准套件可应用于学术研究和工业界,帮助开发者选择合适的模型,并优化模型在芬兰语环境下的性能。此外,该基准还可以用于评估模型在不同任务上的泛化能力和鲁棒性。
📄 摘要(原文)
We introduce FIN-bench-v2, a unified benchmark suite for evaluating large language models in Finnish. FIN-bench-v2 consolidates Finnish versions of widely used benchmarks together with an updated and expanded version of the original FIN-bench into a single, consistently formatted collection, covering multiple-choice and generative tasks across reading comprehension, commonsense reasoning, sentiment analysis, world knowledge, and alignment. All datasets are converted to HuggingFace Datasets, which include both cloze and multiple-choice prompt formulations with five variants per task, and we incorporate human annotation or review for machine-translated resources such as GoldenSwag and XED. To select robust tasks, we pretrain a set of 2.15B-parameter decoder-only models and use their learning curves to compute monotonicity, signal-to-noise, non-random performance, and model ordering consistency, retaining only tasks that satisfy all criteria. We further evaluate a set of larger instruction-tuned models to characterize performance across tasks and prompt formulations. All datasets, prompts, and evaluation configurations are publicly available via our fork of the Language Model Evaluation Harness at https://github.com/LumiOpen/lm-evaluation-harness. Supplementary resources are released in a separate repository at https://github.com/TurkuNLP/FIN-bench-v2.