Math Education Digital Shadows for facilitating learning with LLMs: Math performance, anxiety and confidence in simulated students and AIs

作者: Naomi Esposito, Anthony Tricarico, Luisa Porzio, Ali Aghazadeh Ardebili, Massimo Stella

分类: cs.AI, cs.CY, cs.HC, cs.LG, cs.SI

发布日期: 2026-04-30

💡 一句话要点

提出MEDS数据集，用于评估LLM在数学教育中的能力、偏差及心理特征。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数学教育 大型语言模型 数据集 认知偏差 心理特征

📋 核心要点

现有数学基准测试仅关注分数，忽略了LLM在数学教育中重要的心理因素，如焦虑和自信。
MEDS数据集通过模拟人类和AI角色，全面评估LLM在数学问题解决中的能力、推理过程和心理状态。
实验验证了MEDS数据集的有效性，揭示了不同LLM在数学能力、认知偏差和心理特征方面的差异。

📝 摘要（中文）

为了提升大型语言模型（LLM）在数学教育领域的影响力，我们需要关于它们在不同提示下的数学能力和偏差的数据。为此，我们引入了数学教育数字阴影（MEDS）数据集，该数据集旨在映射大型语言模型在类人和类AI助手条件下的数学推理和报告能力。MEDS包含来自14个LLM（来自Mistral、Qwen、DeepSeek、Granite、Phi和Grok等系列）的28,000个角色，这些角色模拟人类或AI助手。每个记录/阴影包括一系列提示，以及心理/社会人口学角色元数据和四种类型的数学任务：（i）开放式数学访谈，（ii）三个关于数学认知的心理测量测试及解释，（iii）捕捉数学态度的认知网络，以及（iv）18个高中数学测试题及其推理和置信度评分。MEDS与传统的仅包含分数的数学基准测试不同，因为它除了数学能力评分外，还整合了自我效能、数学焦虑和认知网络科学的概念。数据验证表明，抽样的LLM表现出模式完整性和一致的角色，以及特定于系列的特性，如类人负面数学态度、逻辑谬误和数学过度自信。MEDS将使学习分析专家、认知科学家和更安全的数学AI辅导开发人员受益。

🔬 方法详解

问题定义：论文旨在解决LLM在数学教育领域应用中，缺乏对其数学能力、推理过程以及相关心理因素（如数学焦虑、自信心）的全面评估的问题。现有数学基准测试主要关注最终得分，忽略了LLM的推理过程和潜在的认知偏差，这限制了LLM在数学教育中更安全、更有效地应用。

核心思路：论文的核心思路是构建一个名为MEDS（Math Education Digital Shadows）的数据集，通过模拟不同的人类和AI角色，让LLM在各种数学任务中进行推理和解答，从而全面评估LLM的数学能力、推理过程、认知偏差以及相关的心理特征。这种方法能够更深入地了解LLM在数学教育中的表现，并为开发更安全、更有效的AI数学辅导系统提供数据支持。

技术框架：MEDS数据集的构建流程主要包括以下几个阶段：1) 选择14个具有代表性的LLM（如Mistral、Qwen等）；2) 为每个LLM创建28,000个角色，模拟人类学生和AI助手；3) 设计四种类型的数学任务，包括开放式数学访谈、心理测量测试、认知网络分析和高中数学测试题；4) 让LLM在不同角色的设定下完成这些任务，并记录其推理过程、答案和置信度评分；5) 对收集到的数据进行验证和分析，评估LLM的数学能力、认知偏差和心理特征。

关键创新：MEDS数据集的关键创新在于其综合性地评估LLM在数学教育中的表现，不仅关注最终得分，还关注LLM的推理过程、认知偏差以及相关的心理特征。与传统的数学基准测试相比，MEDS数据集更全面、更深入地了解LLM在数学教育中的能力和局限性，为开发更安全、更有效的AI数学辅导系统提供了更丰富的数据支持。

关键设计：MEDS数据集的关键设计包括：1) 角色模拟，通过模拟不同的人类学生和AI助手，让LLM在不同的情境下进行推理和解答；2) 多样化的数学任务，包括开放式数学访谈、心理测量测试、认知网络分析和高中数学测试题，全面评估LLM的数学能力；3) 推理过程记录，记录LLM在解答数学问题时的推理过程，以便分析其认知偏差；4) 置信度评分，评估LLM对其答案的自信程度，以便了解其认知偏差。

🖼️ 关键图片

📊 实验亮点

实验结果表明，不同的LLM在数学能力、认知偏差和心理特征方面存在显著差异。例如，某些LLM表现出类人负面数学态度，某些LLM存在逻辑谬误，而另一些LLM则表现出数学过度自信。数据验证表明，抽样的LLM表现出模式完整性和一致的角色，以及特定于系列的特性。MEDS数据集为深入了解LLM在数学教育中的表现提供了宝贵的数据。

🎯 应用场景

MEDS数据集可应用于多个领域，包括：1) 评估和比较不同LLM在数学教育中的能力；2) 识别LLM在数学推理中的认知偏差；3) 开发更安全、更有效的AI数学辅导系统；4) 改进LLM的数学推理能力；5) 研究人类和AI在数学学习中的认知过程。该数据集将促进AI在教育领域的应用，并为认知科学研究提供新的视角。

📄 摘要（原文）

To enhance LLMs' impact on math education, we need data on their mathematical prowess and biases across prompts. To fill this gap, we introduce MEDS (Math Education Digital Shadows) as a dataset mapping how large language models reason about and report mathematics across human- and AI-like conditions. MEDS involves 28,000 personas from 14 LLMs (from families like Mistral, Qwen, DeepSeek, Granite, Phi and Grok) shadowing either humans or AI assistants. Each record/shadow includes a set of prompts along with psychological/sociodemographic persona metadata and four types of math tasks: (i) open math interview, (ii) three psychometric tests about math perceptions with explanations, (iii) cognitive networks capturing math attitudes, and (iv) 18 high-school math test questions together with their reasoning and confidence scores. MEDS differs from traditional score-only math benchmarks because it integrates concepts of self-efficacy, math anxiety, and cognitive network science besides math proficiency scores. Data validation shows that the sampled LLMs exhibit schema integrity and consistent personas, together with family-specific peculiarities like human-like negative math attitudes, logical fallacies, and math overconfidence. MEDS will benefit learning analytics experts, cognitive scientists, and developers of safer AI tutors in mathematics.

Math Education Digital Shadows for facilitating learning with LLMs: Math performance, anxiety and confidence in simulated students and AIs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理