KoSimpleQA: A Korean Factuality Benchmark with an Analysis of Reasoning LLMs
作者: Donghyeon Ko, Yeguk Jin, Kyubyung Chae, Byungwook Lee, Chansong Jo, Sookyo In, Jaehong Lee, Taesup Kim, Donghyun Kwak
分类: cs.CL
发布日期: 2025-10-21
💡 一句话要点
提出KoSimpleQA基准,用于评估LLM在韩语事实性知识问答中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 韩语 事实性问答 大型语言模型 基准数据集 文化知识
📋 核心要点
- 现有LLM在处理韩语文化知识的事实性问答方面存在不足,缺乏专门的评估基准。
- KoSimpleQA基准包含1000个事实性问题,答案明确,旨在评估LLM在韩语文化知识方面的表现。
- 实验表明,即使是最强的LLM在KoSimpleQA上的准确率也仅为33.7%,且性能排名与英语SimpleQA差异显著。
📝 摘要(中文)
本文提出了韩语SimpleQA(KoSimpleQA)基准,用于评估大型语言模型(LLM)在韩语文化知识方面的事实性。KoSimpleQA旨在具有挑战性但易于评分,包含1000个简短的事实性问题,答案明确。我们对各种支持韩语的不同规模的开源LLM进行了全面评估,发现即使是最强大的模型也只能在33.7%的时间内生成正确答案,突显了KoSimpleQA的挑战性。值得注意的是,KoSimpleQA上的性能排名与英语SimpleQA上的排名有很大差异,突出了我们数据集的独特价值。此外,我们对推理LLM的分析表明,在事实性问答任务中运用推理能力既可以帮助模型更好地激发其潜在知识,又可以提高模型在不确定时的拒绝回答能力。KoSimpleQA可在https://anonymous.4open.science/r/KoSimpleQA-62EB 找到。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在韩语文化知识方面的事实性问答能力评估问题。现有方法主要依赖于英语数据集,无法充分评估LLM在特定文化背景下的知识掌握程度。因此,需要一个专门针对韩语文化知识的、具有挑战性且易于评估的基准数据集。
核心思路:论文的核心思路是构建一个高质量的韩语事实性问答数据集,即KoSimpleQA。该数据集包含1000个简短的事实性问题,这些问题围绕韩语文化知识展开,并且答案明确。通过在该数据集上评估LLM的性能,可以更准确地了解LLM在韩语文化知识方面的掌握程度。
技术框架:KoSimpleQA的构建主要包括以下几个阶段:问题收集、答案标注和质量控制。问题收集阶段旨在收集涵盖广泛韩语文化知识的问题。答案标注阶段为每个问题标注明确的答案。质量控制阶段旨在确保数据集的准确性和一致性。此外,论文还设计了一套评估流程,用于评估LLM在KoSimpleQA上的性能。
关键创新:KoSimpleQA的关键创新在于它是第一个专门针对韩语文化知识的事实性问答基准。与现有的英语数据集相比,KoSimpleQA更能够反映LLM在特定文化背景下的知识掌握程度。此外,论文还分析了推理能力对LLM在事实性问答任务中的影响,发现运用推理能力可以提高模型的性能。
关键设计:KoSimpleQA数据集包含1000个问题,每个问题都设计成简短且易于理解的形式。答案标注采用单答案形式,确保答案的明确性。在评估LLM性能时,采用准确率作为评估指标。此外,论文还探索了不同的推理方法,例如链式思考(Chain-of-Thought),以提高LLM的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是最强大的开源LLM在KoSimpleQA上的准确率也仅为33.7%,远低于在英语SimpleQA上的表现,突显了KoSimpleQA的挑战性。此外,KoSimpleQA上的性能排名与英语SimpleQA上的排名有很大差异,表明KoSimpleQA能够提供关于LLM在韩语文化知识方面能力的独特信息。通过引入推理机制,LLM在KoSimpleQA上的性能得到了显著提升。
🎯 应用场景
KoSimpleQA可用于评估和提升LLM在韩语文化知识方面的能力,促进LLM在韩语环境下的应用,例如智能客服、教育辅助、文化传承等。该基准还可以用于研究LLM的推理能力和知识表示,推动通用人工智能的发展。未来,可以扩展KoSimpleQA数据集,使其包含更多样化的问题类型和更复杂的推理场景。
📄 摘要(原文)
We present $\textbf{Korean SimpleQA (KoSimpleQA)}$, a benchmark for evaluating factuality in large language models (LLMs) with a focus on Korean cultural knowledge. KoSimpleQA is designed to be challenging yet easy to grade, consisting of 1,000 short, fact-seeking questions with unambiguous answers. We conduct a comprehensive evaluation across a diverse set of open-source LLMs of varying sizes that support Korean, and find that even the strongest model generates correct answer only 33.7% of the time, underscoring the challenging nature of KoSimpleQA. Notably, performance rankings on KoSimpleQA differ substantially from those on the English SimpleQA, highlighting the unique value of our dataset. Furthermore, our analysis of reasoning LLMs shows that engaging reasoning capabilities in the factual QA task can both help models better elicit their latent knowledge and improve their ability to abstain when uncertain. KoSimpleQA can be found at https://anonymous.4open.science/r/KoSimpleQA-62EB.