Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models

📄 arXiv: 2411.07140v2 📥 PDF

作者: Yancheng He, Shilong Li, Jiaheng Liu, Yingshui Tan, Weixun Wang, Hui Huang, Xingyuan Bu, Hangyu Guo, Chengwei Hu, Boren Zheng, Zhuoran Lin, Xuepeng Liu, Dekai Sun, Shirong Lin, Zhicheng Zheng, Xiaoyong Zhu, Wenbo Su, Bo Zheng

分类: cs.CL

发布日期: 2024-11-11 (更新: 2024-11-13)


💡 一句话要点

提出中文SimpleQA:用于评估大型语言模型事实性的中文基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 事实性评估 中文基准 知识问答 数据集构建

📋 核心要点

  1. 现有LLM缺乏针对中文事实性评估的全面基准,难以准确衡量模型在中文语境下的知识掌握程度。
  2. 论文构建了中文SimpleQA数据集,包含高质量、多样化且静态的中文问题和答案,用于评估LLM的事实性。
  3. 通过在中文SimpleQA上评估现有LLM,论文展示了该基准的有效性,并为模型开发者提供了改进方向。

📝 摘要(中文)

为了适应大型语言模型(LLMs)的快速发展,新的LLM评估基准至关重要。本文提出了中文SimpleQA,这是第一个全面的中文基准,用于评估语言模型回答简短问题的事实性能力。中文SimpleQA主要具有五个特性:中文、多样性、高质量、静态性和易于评估。具体来说,首先,我们关注中文,涵盖6个主要主题和99个不同的子主题。其次,我们进行了全面的质量控制流程,以实现高质量的问题和答案,其中参考答案是静态的,不会随时间而改变。第三,遵循SimpleQA,问题和答案非常简短,并且基于OpenAI API的评分过程易于评估。基于中文SimpleQA,我们对现有LLM的事实性能力进行了全面评估。最后,我们希望中文SimpleQA能够指导开发人员更好地了解其模型的中文事实性能力,并促进基础模型的增长。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在中文语境下的事实性评估问题。现有方法缺乏一个专门针对中文、高质量、多样化的基准数据集,难以准确评估LLMs在中文知识问答方面的能力。已有的英文数据集无法直接迁移到中文,因为语言和文化背景存在差异。

核心思路:论文的核心思路是构建一个名为中文SimpleQA的中文事实性评估基准。该基准模仿英文SimpleQA的设计理念,即问题和答案都非常简短,易于评估。同时,为了保证基准的质量和多样性,论文在数据收集和标注过程中采用了严格的质量控制流程。

技术框架:中文SimpleQA的构建主要包括以下几个阶段: 1. 主题选择:选择6个主要主题和99个不同的子主题,以保证数据集的多样性。 2. 数据收集:从各种来源收集问题和答案,包括百科全书、新闻报道等。 3. 数据清洗:对收集到的数据进行清洗,去除噪声和重复数据。 4. 人工标注:由人工标注员对问题和答案进行验证和修正,确保其准确性和一致性。 5. 质量控制:进行多轮质量控制,包括人工审核和自动化检查,以保证数据集的质量。

关键创新:该论文的关键创新在于构建了第一个全面的中文事实性评估基准,填补了中文LLM评估领域的空白。与现有的英文基准相比,中文SimpleQA更适合评估LLMs在中文语境下的知识掌握程度。此外,该基准的静态性保证了评估结果的可重复性和可比性。

关键设计: 1. 问题和答案的长度:问题和答案都非常简短,通常只有一个或几个词。 2. 主题的多样性:涵盖6个主要主题和99个不同的子主题,以保证数据集的多样性。 3. 质量控制流程:采用严格的质量控制流程,包括人工审核和自动化检查,以保证数据集的质量。 4. 评估方法:使用基于OpenAI API的评分方法,易于评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建的中文SimpleQA数据集包含高质量、多样化的中文问题和答案,能够有效评估LLM在中文语境下的事实性。通过在该数据集上评估现有LLM,论文发现不同模型在中文事实性方面存在显著差异,为模型改进提供了重要参考。

🎯 应用场景

中文SimpleQA可用于评估和比较不同LLM在中文事实性问答方面的能力,帮助开发者了解模型的优势和不足。该基准还可用于指导模型的训练和优化,提高模型在中文知识问答方面的性能。此外,该基准还可以促进中文LLM评估领域的研究和发展。

📄 摘要(原文)

New LLM evaluation benchmarks are important to align with the rapid development of Large Language Models (LLMs). In this work, we present Chinese SimpleQA, the first comprehensive Chinese benchmark to evaluate the factuality ability of language models to answer short questions, and Chinese SimpleQA mainly has five properties (i.e., Chinese, Diverse, High-quality, Static, Easy-to-evaluate). Specifically, first, we focus on the Chinese language over 6 major topics with 99 diverse subtopics. Second, we conduct a comprehensive quality control process to achieve high-quality questions and answers, where the reference answers are static and cannot be changed over time. Third, following SimpleQA, the questions and answers are very short, and the grading process is easy-to-evaluate based on OpenAI API. Based on Chinese SimpleQA, we perform a comprehensive evaluation on the factuality abilities of existing LLMs. Finally, we hope that Chinese SimpleQA could guide the developers to better understand the Chinese factuality abilities of their models and facilitate the growth of foundation models.