FIN-bench-v2: A Unified and Robust Benchmark Suite for Evaluating Finnish Large Language Models

作者: Joona Kytöniemi, Jousia Piha, Akseli Reunamo, Fedor Vitiugin, Farrokh Mehryary, Sampo Pyysalo

分类: cs.CL, cs.AI

发布日期: 2025-12-15

🔗 代码/项目: GITHUB | GITHUB

💡 一句话要点

FIN-bench-v2：用于评估芬兰语大型语言模型的统一且鲁棒的基准套件

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 芬兰语 大型语言模型 基准测试 自然语言处理 模型评估 鲁棒性 指令调整 数据集

📋 核心要点

现有芬兰语LLM缺乏统一且鲁棒的评估基准，难以全面评估模型能力。
FIN-bench-v2整合现有基准，并进行人工审核和格式统一，提供可靠的评估平台。
通过预训练小模型筛选任务，保证基准的鲁棒性，并评估大型指令调整模型的性能。

📝 摘要（中文）

我们推出了FIN-bench-v2，这是一个用于评估芬兰语大型语言模型的统一基准套件。FIN-bench-v2将广泛使用的基准的芬兰语版本与原始FIN-bench的更新和扩展版本整合到一个一致格式的集合中，涵盖阅读理解、常识推理、情感分析、世界知识和对齐等方面的多项选择和生成任务。所有数据集都转换为HuggingFace Datasets，其中包括每个任务的五个变体的完形填空和多项选择提示公式，并且我们为机器翻译的资源（如GoldenSwag和XED）加入了人工注释或审查。为了选择鲁棒的任务，我们预训练了一组21.5亿参数的仅解码器模型，并使用它们的学习曲线来计算单调性、信噪比、非随机性能和模型排序一致性，仅保留满足所有标准的任务。我们进一步评估了一组更大的指令调整模型，以表征跨任务和提示公式的性能。所有数据集、提示和评估配置均通过我们在https://github.com/LumiOpen/lm-evaluation-harness 的Language Model Evaluation Harness的分支公开发布。补充资源在https://github.com/TurkuNLP/FIN-bench-v2 的单独存储库中发布。

🔬 方法详解

问题定义：现有芬兰语大型语言模型（LLM）的评估缺乏一个统一且鲁棒的基准。现有的基准数据集分散，格式不一致，且部分数据集质量不高（例如，机器翻译引入的噪声），难以对模型进行全面、可靠的评估。这阻碍了芬兰语LLM的发展和比较。

核心思路：FIN-bench-v2的核心思路是构建一个高质量、统一格式的芬兰语LLM评估基准。通过整合现有资源、人工审核和数据清洗，以及基于小模型学习曲线的任务筛选，确保基准的鲁棒性和可靠性。同时，提供多种提示方式，以更全面地评估模型能力。

技术框架：FIN-bench-v2的构建流程主要包括以下几个阶段：1) 数据集整合：收集并整合现有的芬兰语基准数据集，包括阅读理解、常识推理、情感分析、世界知识和对齐等任务。2) 数据格式统一：将所有数据集转换为HuggingFace Datasets格式，并提供统一的API接口。3) 数据质量提升：对机器翻译的数据集进行人工审核和修正，减少噪声。4) 任务筛选：预训练一组小模型，并根据其学习曲线的单调性、信噪比等指标筛选出鲁棒的任务。5) 性能评估：使用筛选后的基准评估大型指令调整模型的性能，并分析不同提示方式的影响。

关键创新：FIN-bench-v2的关键创新在于其鲁棒的任务筛选机制。通过预训练小模型并分析其学习曲线，可以有效地识别出对模型性能具有区分度的任务，避免了使用噪声或过于简单的任务。此外，人工审核和数据清洗也显著提高了数据集的质量。

关键设计：在任务筛选阶段，使用了21.5亿参数的仅解码器模型进行预训练。学习曲线的评估指标包括单调性（monotonicity）、信噪比（signal-to-noise）、非随机性能（non-random performance）和模型排序一致性（model ordering consistency）。只有满足所有这些指标的任务才会被保留。此外，每个任务都提供了五种不同的提示变体，包括完形填空和多项选择两种形式。

📊 实验亮点

FIN-bench-v2通过预训练小模型并分析学习曲线，筛选出鲁棒的任务，保证了基准的可靠性。对机器翻译数据集进行人工审核，提高了数据质量。实验评估了多个大型指令调整模型，并分析了不同提示方式对性能的影响。具体性能数据和对比基线未在摘要中明确给出，需参考论文全文。

🎯 应用场景

FIN-bench-v2可用于评估和比较不同的芬兰语大型语言模型，推动芬兰语自然语言处理技术的发展。该基准套件可应用于学术研究和工业界，帮助开发者选择合适的模型，并优化模型在芬兰语环境下的性能。此外，该基准还可以用于评估模型在不同任务上的泛化能力和鲁棒性。

📄 摘要（原文）

We introduce FIN-bench-v2, a unified benchmark suite for evaluating large language models in Finnish. FIN-bench-v2 consolidates Finnish versions of widely used benchmarks together with an updated and expanded version of the original FIN-bench into a single, consistently formatted collection, covering multiple-choice and generative tasks across reading comprehension, commonsense reasoning, sentiment analysis, world knowledge, and alignment. All datasets are converted to HuggingFace Datasets, which include both cloze and multiple-choice prompt formulations with five variants per task, and we incorporate human annotation or review for machine-translated resources such as GoldenSwag and XED. To select robust tasks, we pretrain a set of 2.15B-parameter decoder-only models and use their learning curves to compute monotonicity, signal-to-noise, non-random performance, and model ordering consistency, retaining only tasks that satisfy all criteria. We further evaluate a set of larger instruction-tuned models to characterize performance across tasks and prompt formulations. All datasets, prompts, and evaluation configurations are publicly available via our fork of the Language Model Evaluation Harness at https://github.com/LumiOpen/lm-evaluation-harness. Supplementary resources are released in a separate repository at https://github.com/TurkuNLP/FIN-bench-v2.

FIN-bench-v2: A Unified and Robust Benchmark Suite for Evaluating Finnish Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理