Math Education Digital Shadows for facilitating learning with LLMs: Math performance, anxiety and confidence in simulated students and AIs
作者: Naomi Esposito, Anthony Tricarico, Luisa Porzio, Ali Aghazadeh Ardebili, Massimo Stella
分类: cs.AI, cs.CY, cs.HC, cs.LG, cs.SI
发布日期: 2026-04-30
💡 一句话要点
提出MEDS数据集,用于评估LLM在数学教育中的能力、偏差及心理特征。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学教育 大型语言模型 数据集 认知偏差 心理特征
📋 核心要点
- 现有数学基准测试仅关注分数,忽略了LLM在数学教育中重要的心理因素,如焦虑和自信。
- MEDS数据集通过模拟人类和AI角色,全面评估LLM在数学问题解决中的能力、推理过程和心理状态。
- 实验验证了MEDS数据集的有效性,揭示了不同LLM在数学能力、认知偏差和心理特征方面的差异。
📝 摘要(中文)
为了提升大型语言模型(LLM)在数学教育领域的影响力,我们需要关于它们在不同提示下的数学能力和偏差的数据。为此,我们引入了数学教育数字阴影(MEDS)数据集,该数据集旨在映射大型语言模型在类人和类AI助手条件下的数学推理和报告能力。MEDS包含来自14个LLM(来自Mistral、Qwen、DeepSeek、Granite、Phi和Grok等系列)的28,000个角色,这些角色模拟人类或AI助手。每个记录/阴影包括一系列提示,以及心理/社会人口学角色元数据和四种类型的数学任务:(i)开放式数学访谈,(ii)三个关于数学认知的心理测量测试及解释,(iii)捕捉数学态度的认知网络,以及(iv)18个高中数学测试题及其推理和置信度评分。MEDS与传统的仅包含分数的数学基准测试不同,因为它除了数学能力评分外,还整合了自我效能、数学焦虑和认知网络科学的概念。数据验证表明,抽样的LLM表现出模式完整性和一致的角色,以及特定于系列的特性,如类人负面数学态度、逻辑谬误和数学过度自信。MEDS将使学习分析专家、认知科学家和更安全的数学AI辅导开发人员受益。
🔬 方法详解
问题定义:论文旨在解决LLM在数学教育领域应用中,缺乏对其数学能力、推理过程以及相关心理因素(如数学焦虑、自信心)的全面评估的问题。现有数学基准测试主要关注最终得分,忽略了LLM的推理过程和潜在的认知偏差,这限制了LLM在数学教育中更安全、更有效地应用。
核心思路:论文的核心思路是构建一个名为MEDS(Math Education Digital Shadows)的数据集,通过模拟不同的人类和AI角色,让LLM在各种数学任务中进行推理和解答,从而全面评估LLM的数学能力、推理过程、认知偏差以及相关的心理特征。这种方法能够更深入地了解LLM在数学教育中的表现,并为开发更安全、更有效的AI数学辅导系统提供数据支持。
技术框架:MEDS数据集的构建流程主要包括以下几个阶段:1) 选择14个具有代表性的LLM(如Mistral、Qwen等);2) 为每个LLM创建28,000个角色,模拟人类学生和AI助手;3) 设计四种类型的数学任务,包括开放式数学访谈、心理测量测试、认知网络分析和高中数学测试题;4) 让LLM在不同角色的设定下完成这些任务,并记录其推理过程、答案和置信度评分;5) 对收集到的数据进行验证和分析,评估LLM的数学能力、认知偏差和心理特征。
关键创新:MEDS数据集的关键创新在于其综合性地评估LLM在数学教育中的表现,不仅关注最终得分,还关注LLM的推理过程、认知偏差以及相关的心理特征。与传统的数学基准测试相比,MEDS数据集更全面、更深入地了解LLM在数学教育中的能力和局限性,为开发更安全、更有效的AI数学辅导系统提供了更丰富的数据支持。
关键设计:MEDS数据集的关键设计包括:1) 角色模拟,通过模拟不同的人类学生和AI助手,让LLM在不同的情境下进行推理和解答;2) 多样化的数学任务,包括开放式数学访谈、心理测量测试、认知网络分析和高中数学测试题,全面评估LLM的数学能力;3) 推理过程记录,记录LLM在解答数学问题时的推理过程,以便分析其认知偏差;4) 置信度评分,评估LLM对其答案的自信程度,以便了解其认知偏差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同的LLM在数学能力、认知偏差和心理特征方面存在显著差异。例如,某些LLM表现出类人负面数学态度,某些LLM存在逻辑谬误,而另一些LLM则表现出数学过度自信。数据验证表明,抽样的LLM表现出模式完整性和一致的角色,以及特定于系列的特性。MEDS数据集为深入了解LLM在数学教育中的表现提供了宝贵的数据。
🎯 应用场景
MEDS数据集可应用于多个领域,包括:1) 评估和比较不同LLM在数学教育中的能力;2) 识别LLM在数学推理中的认知偏差;3) 开发更安全、更有效的AI数学辅导系统;4) 改进LLM的数学推理能力;5) 研究人类和AI在数学学习中的认知过程。该数据集将促进AI在教育领域的应用,并为认知科学研究提供新的视角。
📄 摘要(原文)
To enhance LLMs' impact on math education, we need data on their mathematical prowess and biases across prompts. To fill this gap, we introduce MEDS (Math Education Digital Shadows) as a dataset mapping how large language models reason about and report mathematics across human- and AI-like conditions. MEDS involves 28,000 personas from 14 LLMs (from families like Mistral, Qwen, DeepSeek, Granite, Phi and Grok) shadowing either humans or AI assistants. Each record/shadow includes a set of prompts along with psychological/sociodemographic persona metadata and four types of math tasks: (i) open math interview, (ii) three psychometric tests about math perceptions with explanations, (iii) cognitive networks capturing math attitudes, and (iv) 18 high-school math test questions together with their reasoning and confidence scores. MEDS differs from traditional score-only math benchmarks because it integrates concepts of self-efficacy, math anxiety, and cognitive network science besides math proficiency scores. Data validation shows that the sampled LLMs exhibit schema integrity and consistent personas, together with family-specific peculiarities like human-like negative math attitudes, logical fallacies, and math overconfidence. MEDS will benefit learning analytics experts, cognitive scientists, and developers of safer AI tutors in mathematics.