Cracking the Code: Multi-domain LLM Evaluation on Real-World Professional Exams in Indonesia

作者: Fajri Koto

分类: cs.CL

发布日期: 2024-09-13 (更新: 2025-02-22)

备注: Accepted at NAACL 2025 (Industry Track)

💡 一句话要点

提出IndoCareer数据集，评估LLM在印尼真实职业考试中的多领域能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 职业考试 多领域评估 本地化知识 IndoCareer数据集

📋 核心要点

现有LLM知识评估主要集中在学术领域，缺乏对真实职业场景的实用能力评估。
IndoCareer数据集通过模拟印尼职业考试，提供多领域、本地化的评估基准。
实验表明，LLM在具有本地背景的领域表现不佳，答案选项的扰动会引入评估不稳定性。

📝 摘要（中文）

本文介绍了一个名为IndoCareer的数据集，该数据集包含8,834道多项选择题，旨在评估大型语言模型在各个领域的职业和专业认证考试中的表现。IndoCareer专注于印度尼西亚，提供了丰富的本地背景，涵盖六个关键领域：（1）医疗保健，（2）保险和金融，（3）创意和设计，（4）旅游和酒店，（5）教育和培训，以及（6）法律。对27个大型语言模型的全面评估表明，这些模型在具有强烈本地背景的领域（如保险和金融）中表现不佳。此外，在使用整个数据集时，打乱答案选项通常可以保持模型评估结果的一致性，但会在保险和金融领域引入不稳定性。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）的知识评估主要集中在学术科目上，例如数学和物理。然而，这些评估往往不能反映真实世界职业的实际需求。因此，需要一个能够评估LLM在实际职业场景中表现的数据集，特别是针对特定地区的职业知识。

核心思路：本文的核心思路是构建一个包含真实世界职业考试题目的数据集，并利用该数据集来评估LLM在不同职业领域的表现。通过关注印度尼西亚的职业认证考试，该数据集能够提供丰富的本地背景知识，从而更准确地评估LLM的实际应用能力。

技术框架：IndoCareer数据集包含8,834道多项选择题，涵盖六个关键领域：医疗保健、保险和金融、创意和设计、旅游和酒店、教育和培训以及法律。研究人员使用该数据集对27个大型语言模型进行了评估。评估过程中，研究人员还探索了打乱答案选项对评估结果的影响。

关键创新：IndoCareer数据集的主要创新在于其关注真实世界的职业考试，并提供了丰富的本地背景知识。这使得该数据集能够更准确地评估LLM在实际职业场景中的应用能力。此外，该研究还发现，LLM在具有强烈本地背景的领域表现不佳，这表明LLM需要更好地理解和适应不同地区的文化和知识。

关键设计：IndoCareer数据集中的题目均来自印度尼西亚的职业和专业认证考试。数据集涵盖了六个不同的领域，每个领域包含多个不同的职业。研究人员使用标准的多项选择题评估方法来评估LLM的性能。此外，研究人员还通过打乱答案选项来评估评估结果的稳定性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在具有强烈本地背景的领域（如保险和金融）表现不佳。此外，打乱答案选项通常保持评估结果的一致性，但在保险和金融领域引入不稳定性。这些发现突出了LLM在处理特定领域和本地化知识方面的局限性。

🎯 应用场景

该研究成果可应用于评估和提升LLM在特定行业和地区的专业能力，例如辅助招聘、职业培训和技能认证。IndoCareer数据集可以作为LLM开发者的基准，促进模型更好地适应本地化需求，提升在实际工作场景中的应用效果，并为相关政策制定提供参考。

📄 摘要（原文）

While knowledge evaluation in large language models has predominantly focused on academic subjects like math and physics, these assessments often fail to capture the practical demands of real-world professions. In this paper, we introduce IndoCareer, a dataset comprising 8,834 multiple-choice questions designed to evaluate performance in vocational and professional certification exams across various fields. With a focus on Indonesia, IndoCareer provides rich local contexts, spanning six key sectors: (1) healthcare, (2) insurance and finance, (3) creative and design, (4) tourism and hospitality, (5) education and training, and (6) law. Our comprehensive evaluation of 27 large language models shows that these models struggle particularly in fields with strong local contexts, such as insurance and finance. Additionally, while using the entire dataset, shuffling answer options generally maintains consistent evaluation results across models, but it introduces instability specifically in the insurance and finance sectors.

Cracking the Code: Multi-domain LLM Evaluation on Real-World Professional Exams in Indonesia

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理