EMNLP: Educator-role Moral and Normative Large Language Models Profiling

📄 arXiv: 2508.15250v3 📥 PDF

作者: Yilin Jiang, Mingzi Zhang, Sheng Jin, Zengyi Yu, Xiangjie Kong, Binghao Tu

分类: cs.CL, cs.AI

发布日期: 2025-08-21 (更新: 2025-11-10)

备注: 29pages, 15 figures, Accepted by EMNLP Main Confrence

DOI: 10.18653/v1/2025.emnlp-main.42

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

EMNLP:构建教育者角色道德规范大语言模型评估框架,评估伦理风险

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 伦理评估 教育AI 道德推理 提示注入

📋 核心要点

  1. 现有方法缺乏对模拟职业角色的大语言模型在心理和伦理方面的全面评估。
  2. EMNLP框架通过人格剖析、道德发展阶段测量和伦理风险评估,全面评估教育者角色LLM。
  3. 实验表明,教师角色LLM在人格和道德推理上与人类教师存在差异,且推理能力强的模型更易受提示注入攻击。

📝 摘要(中文)

本文提出了EMNLP,一个用于评估教育者角色大语言模型(LLMs)的道德和规范框架,该框架涵盖人格剖析、道德发展阶段测量以及在软提示注入下的伦理风险评估。EMNLP扩展了现有量表,构建了88个教师特定的道德困境,从而能够进行面向职业的角色与人类教师的比较。一个有针对性的软提示注入集合被用于评估教师角色LLM的合规性和脆弱性。对14个LLM的实验表明,教师角色LLM表现出比人类教师更理想化和两极分化的人格,擅长抽象道德推理,但在情感复杂的情况下表现不佳。推理能力更强的模型更容易受到有害提示注入的影响,揭示了能力和安全性之间的悖论。模型温度和其他超参数的影响有限,仅在某些风险行为中有所体现。本文提出了第一个用于评估教育AI中教师角色LLM的伦理和心理一致性的基准。

🔬 方法详解

问题定义:现有的大语言模型在模拟特定职业角色时,缺乏对其心理和伦理风险的全面评估。尤其是在教育领域,如果AI教师存在伦理偏差或容易受到恶意提示的影响,可能会对学生产生负面影响。因此,需要一个专门的框架来评估教育者角色LLM的道德规范和潜在风险。

核心思路:EMNLP框架的核心思路是通过构建一套针对教育者角色的道德困境和软提示注入测试,来评估LLM在人格、道德发展阶段和伦理风险方面的表现。通过与人类教师进行对比,可以发现LLM在伦理和心理方面存在的偏差和不足。

技术框架:EMNLP框架包含三个主要模块:1) 人格剖析:使用扩展的量表评估LLM的人格特征;2) 道德发展阶段测量:利用教师特定的道德困境评估LLM的道德推理能力;3) 伦理风险评估:通过软提示注入测试LLM的合规性和脆弱性。该框架还包括一个用于与人类教师进行比较的基准数据集。

关键创新:EMNLP的关键创新在于其针对教育者角色LLM的定制化评估方法。它不仅扩展了现有的心理学量表,还构建了一套专门的道德困境和软提示注入测试,从而能够更准确地评估LLM在教育场景下的伦理风险。此外,该框架还强调了能力和安全性之间的悖论,即推理能力强的模型可能更容易受到恶意攻击。

关键设计:EMNLP框架的关键设计包括:1) 88个教师特定的道德困境,用于评估LLM的道德推理能力;2) 一套有针对性的软提示注入集合,用于评估LLM的合规性和脆弱性;3) 使用不同温度系数的模型进行实验,以评估超参数对风险行为的影响。此外,该研究还使用了多种评估指标,包括人格评分、道德发展阶段评分和风险行为发生率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,教师角色LLM表现出比人类教师更理想化和两极分化的人格,擅长抽象道德推理,但在情感复杂的情况下表现不佳。更重要的是,研究发现推理能力更强的模型更容易受到有害提示注入的影响,揭示了能力和安全性之间的潜在冲突。模型温度等超参数对风险行为的影响有限。

🎯 应用场景

EMNLP框架可用于评估和改进教育AI系统中的LLM,确保其符合伦理规范并能安全地应用于教学场景。该框架还可以帮助开发者识别LLM在伦理和心理方面存在的偏差,从而开发出更可靠、更负责任的AI教育工具。此外,该研究也为其他职业角色LLM的伦理评估提供了借鉴。

📄 摘要(原文)

Simulating Professions (SP) enables Large Language Models (LLMs) to emulate professional roles. However, comprehensive psychological and ethical evaluation in these contexts remains lacking. This paper introduces EMNLP, an Educator-role Moral and Normative LLMs Profiling framework for personality profiling, moral development stage measurement, and ethical risk under soft prompt injection. EMNLP extends existing scales and constructs 88 teacher-specific moral dilemmas, enabling profession-oriented comparison with human teachers. A targeted soft prompt injection set evaluates compliance and vulnerability in teacher SP. Experiments on 14 LLMs show teacher-role LLMs exhibit more idealized and polarized personalities than human teachers, excel in abstract moral reasoning, but struggle with emotionally complex situations. Models with stronger reasoning are more vulnerable to harmful prompt injection, revealing a paradox between capability and safety. The model temperature and other hyperparameters have limited influence except in some risk behaviors. This paper presents the first benchmark to assess ethical and psychological alignment of teacher-role LLMs for educational AI. Resources are available at https://e-m-n-l-p.github.io/.