From KMMLU-Redux to KMMLU-Pro: A Professional Korean Benchmark Suite for LLM Evaluation
作者: Seokhee Hong, Sunkyoung Kim, Guijin Son, Soyeon Kim, Yeonjung Hong, Jinsik Lee
分类: cs.CL, cs.AI
发布日期: 2025-07-11 (更新: 2025-07-18)
💡 一句话要点
构建专业级韩语评测基准KMMLU-Pro,提升LLM在行业知识领域的评估能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 LLM评估 韩语基准 专业知识 工业领域 资格考试 知识推理
📋 核心要点
- 现有LLM评测基准在工业知识领域覆盖不足,难以准确评估其在实际行业应用中的能力。
- 构建KMMLU-Redux和KMMLU-Pro两个韩语专家级基准,分别基于技术资格考试和专业执照考试。
- 实验结果表明,新基准能更全面地代表韩国工业知识,为LLM在专业领域的评估提供更可靠的依据。
📝 摘要(中文)
为了有效评估大型语言模型(LLM)在现实场景中的适用性,不仅需要包含学术领域的基准,还需要涵盖工业领域的基准。本文介绍了两个韩语专家级基准。KMMLU-Redux是从现有的KMMLU重建而来,包含韩国国家技术资格考试中的问题,并移除了关键错误以提高可靠性。KMMLU-Pro基于韩国国家专业执照考试,旨在反映韩国的专业知识。实验表明,这些基准全面地代表了韩国的工业知识。我们公开发布了我们的数据集。
🔬 方法详解
问题定义:现有的大型语言模型评估基准主要集中在通用知识和学术领域,缺乏对工业领域专业知识的有效评估。这使得我们难以准确评估LLM在实际行业应用中的能力,例如在法律、医学、金融等专业领域的表现。现有的KMMLU基准存在一些错误,影响了评估的可靠性。
核心思路:本文的核心思路是构建更具代表性和可靠性的韩语专业知识评估基准。通过选取韩国国家技术资格考试和国家专业执照考试的题目,可以确保基准覆盖了广泛的工业领域专业知识。同时,对现有基准进行修正,提高其可靠性。
技术框架:该研究主要包含两个基准的构建:KMMLU-Redux和KMMLU-Pro。KMMLU-Redux是对现有KMMLU基准的重建,主要工作是移除其中的错误,提高数据的质量。KMMLU-Pro是全新的基准,其数据来源于韩国国家专业执照考试。整个流程包括数据收集、清洗、整理和验证,最终形成可用于评估LLM的基准数据集。
关键创新:该研究的关键创新在于构建了专门针对韩国工业领域专业知识的评估基准。与现有的通用知识基准相比,KMMLU-Redux和KMMLU-Pro更能反映LLM在特定行业领域的理解和应用能力。此外,对现有基准的错误修正也提高了评估的准确性和可靠性。
关键设计:KMMLU-Redux的关键设计在于错误识别和修正流程,确保题目的正确性和一致性。KMMLU-Pro的关键设计在于题目的选取,需要确保题目能够代表各个专业领域的关键知识点,并且难度适中,能够有效区分不同LLM的专业能力。具体的技术细节,例如题目的难度分布、领域覆盖等,需要在数据集发布时提供更详细的说明。
🖼️ 关键图片
📊 实验亮点
该研究构建了两个高质量的韩语专业知识评估基准,KMMLU-Redux和KMMLU-Pro。实验结果表明,这些基准能够更全面地代表韩国工业知识,为评估LLM在专业领域的性能提供了更可靠的工具。具体性能数据和对比基线需要在论文中进一步展示。
🎯 应用场景
该研究成果可广泛应用于评估和提升LLM在韩国各行业领域的应用能力。例如,可以利用这些基准来训练和优化针对特定行业的LLM,如法律咨询、医疗诊断、金融分析等。此外,该基准还可以用于比较不同LLM在专业知识方面的优劣,为用户选择合适的模型提供参考。
📄 摘要(原文)
The development of Large Language Models (LLMs) requires robust benchmarks that encompass not only academic domains but also industrial fields to effectively evaluate their applicability in real-world scenarios. In this paper, we introduce two Korean expert-level benchmarks. KMMLU-Redux, reconstructed from the existing KMMLU, consists of questions from the Korean National Technical Qualification exams, with critical errors removed to enhance reliability. KMMLU-Pro is based on Korean National Professional Licensure exams to reflect professional knowledge in Korea. Our experiments demonstrate that these benchmarks comprehensively represent industrial knowledge in Korea. We release our dataset publicly available.