Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models

📄 arXiv: 2409.12739v3 📥 PDF

作者: Peiyi Zhang, Yazhou Zhang, Bo Wang, Lu Rong, Prayag Tiwari, Jing Qin

分类: cs.CL

发布日期: 2024-09-19 (更新: 2025-03-21)

备注: 5 pages, 4 figures


💡 一句话要点

Edu-Values:构建中文教育价值观评测基准,评估大语言模型教育领域能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 教育价值观 中文评估基准 Edu-Values 教师职业道德 RAG 知识库 自动评估

📋 核心要点

  1. 现有大语言模型缺乏针对中文教育价值观的系统性评估,难以衡量其在教育领域的理解和应用能力。
  2. 构建包含七大核心教育价值观的Edu-Values基准,通过多类型题目全面评估大语言模型。
  3. 实验表明,中文大语言模型表现更优,但教师职业道德和职业理念方面仍有不足,且RAG能有效提升模型表现。

📝 摘要(中文)

本文提出了Edu-Values,首个中文教育价值观评估基准,涵盖七个核心价值观:职业理念、教师职业道德、教育法律法规、文化素养、教育知识与技能、基本能力和学科知识。我们精心设计了1418个问题,包括选择题、多模态问答、主观分析、对抗性提示和中国传统文化(简答题)。我们对21个最先进的大语言模型进行了基于人工反馈的自动评估,并强调了三个主要发现:(1)由于教育文化的差异,中文大语言模型优于英文大语言模型,其中Qwen 2以81.37分排名第一;(2)大语言模型通常在教师职业道德和职业理念方面表现不佳;(3)利用Edu-Values构建RAG的外部知识库可以显著提高大语言模型的一致性。这证明了所提出的基准的有效性。

🔬 方法详解

问题定义:现有的大语言模型在通用知识问答方面表现出色,但在特定领域的价值观理解和应用方面存在不足。尤其是在中文教育领域,由于文化差异和专业知识的特殊性,通用大语言模型难以准确把握教育价值观。因此,需要一个专门的基准来评估大语言模型在中文教育价值观方面的能力,并发现其潜在的不足之处。

核心思路:本文的核心思路是构建一个全面的中文教育价值观评估基准,该基准涵盖了教育领域的核心价值观,并设计了多种类型的题目,以全面评估大语言模型在不同方面的能力。通过对多个大语言模型进行评估,可以了解它们在教育价值观方面的表现,并为未来的模型改进提供指导。

技术框架:Edu-Values基准包含以下几个主要模块: 1. 价值观体系构建:确定七个核心的中文教育价值观,包括职业理念、教师职业道德、教育法律法规、文化素养、教育知识与技能、基本能力和学科知识。 2. 题目设计:设计1418个问题,涵盖选择题、多模态问答、主观分析、对抗性提示和中国传统文化(简答题)等多种类型,以全面评估大语言模型在不同方面的能力。 3. 自动评估:基于人工反馈,设计自动评估方法,对大语言模型的回答进行评分。 4. RAG增强:构建基于Edu-Values的外部知识库,利用RAG技术提升大语言模型在教育价值观方面的表现。

关键创新:该论文的关键创新在于: 1. 首次提出了中文教育价值观评估基准Edu-Values,填补了该领域的空白。 2. 设计了多种类型的题目,全面评估大语言模型在不同方面的能力。 3. 提出了基于人工反馈的自动评估方法,提高了评估的准确性和效率。 4. 验证了利用Edu-Values构建的外部知识库可以有效提升大语言模型在教育价值观方面的表现。

关键设计:在题目设计方面,针对不同的价值观和能力,设计了不同类型的题目。例如,对于教师职业道德,设计了情景分析题,要求大语言模型根据具体情景判断教师的行为是否符合职业道德规范。对于中国传统文化,设计了简答题,要求大语言模型回答与中国传统文化相关的知识。在自动评估方面,采用了基于人工反馈的方法,首先由人工对大语言模型的回答进行评分,然后利用这些评分训练自动评估模型,从而实现自动评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,中文大语言模型在Edu-Values基准上的表现优于英文大语言模型,其中Qwen 2以81.37分排名第一。然而,所有模型在教师职业道德和职业理念方面表现相对较差。通过利用Edu-Values构建RAG的外部知识库,可以显著提高大语言模型的一致性,证明了该基准的有效性。

🎯 应用场景

该研究成果可应用于教育领域的大语言模型评估与优化,帮助开发者构建更符合中国教育价值观的人工智能系统。同时,Edu-Values基准可用于教师培训、教育政策制定等领域,促进教育行业的智能化升级。未来,该基准可以扩展到其他国家和地区的教育价值观评估,推动全球教育领域的智能化发展。

📄 摘要(原文)

In this paper, we present Edu-Values, the first Chinese education values evaluation benchmark that includes seven core values: professional philosophy, teachers' professional ethics, education laws and regulations, cultural literacy, educational knowledge and skills, basic competencies and subject knowledge. We meticulously design 1,418 questions, covering multiple-choice, multi-modal question answering, subjective analysis, adversarial prompts, and Chinese traditional culture (short answer) questions. We conduct human feedback based automatic evaluation over 21 state-of-the-art (SoTA) LLMs, and highlight three main findings: (1) due to differences in educational culture, Chinese LLMs outperform English LLMs, with Qwen 2 ranking the first with a score of 81.37; (2) LLMs often struggle with teachers' professional ethics and professional philosophy; (3) leveraging Edu-Values to build an external knowledge repository for RAG significantly improves LLMs' alignment. This demonstrates the effectiveness of the proposed benchmark.