Cognitive-Uncertainty Guided Knowledge Distillation for Accurate Classification of Student Misconceptions
作者: Qirui Liu, Hao Chen, Weijie Shi, Jiajie Xu, Jia Zhu
分类: cs.LG, cs.AI
发布日期: 2026-05-14
备注: ACL 2026 Findings. 10 pages, 5 figures, 19 tables
🔗 代码/项目: GITHUB
💡 一句话要点
提出认知不确定性引导的知识蒸馏框架,用于提升学生错误概念分类的准确性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 知识蒸馏 认知不确定性 学生错误概念分类 难度自适应 个性化教育
📋 核心要点
- 现有方法难以有效处理学生错误概念分类中的数据稀缺、类别模糊和部署难题,导致模型泛化能力不足。
- 论文提出基于认知不确定性的知识蒸馏框架,通过挖掘高价值样本并设计难度自适应机制,提升学生模型性能。
- 实验结果表明,该方法在学生错误概念分类任务上显著优于现有方法,尤其是在小模型上的表现。
- 该方法通过对少量过滤样本进行增强训练,显著提升了模型性能,验证了其有效性。
📝 摘要(中文)
准确识别学生的错误概念对于个性化教育至关重要,但面临三个挑战:(1)数据稀缺且呈现长尾分布,难以合成真实的学⽣推理过程;(2)错误类别之间的界限模糊,存在⾼标注噪声;(3)部署悖论——⼤模型由于预训练偏差⽽忽略⾮传统⽅法,且⽆法在边缘设备上部署,⽽⼩模型则过度拟合噪声。与通过⼤规模数据合成来增加多样性的传统⽅法不同,我们提出了⼀个两阶段知识蒸馏框架,从现有数据中挖掘⾼价值样本。第⼀阶段执⾏标准蒸馏以传递任务能⼒。第⼆阶段引⼊了基于认知不确定性的双层边际选择机制,根据教师模型的不确定性和置信度差异来识别四种类型的关键样本。对于不同的数据⼦集,我们设计了难度⾃适应机制来平衡硬/软标签贡献,使学⽣模型能够继承来⾃教师软标签的类间关系,同时区分模糊的错误类型。实验表明,仅通过对10.30%的过滤样本进⾏增强训练,我们在MAP-Charting数据集上实现了0.9585的MAP@3(+17.8%),并且仅使⽤4B参数模型,我们在中学的跨主题测试中实现了84.38%的准确率代数错误概念基准,显著优于sota LLM(67.73%)和标准微调的72B模型(81.25%)。我们的代码可在https://github.com/RoschildRui/acl2026_map上找到。
🔬 方法详解
问题定义:论文旨在解决学生错误概念分类任务中,由于数据稀缺、类别模糊和模型部署限制而导致的分类精度不高的问题。现有方法要么依赖大规模数据合成,要么难以区分模糊的错误类型,导致模型泛化能力受限。此外,大模型难以部署到边缘设备,小模型容易过拟合噪声。
核心思路:论文的核心思路是通过知识蒸馏,将大模型的知识迁移到小模型,同时利用认知不确定性来选择高价值样本,并设计难度自适应机制来平衡硬标签和软标签的贡献。这样既能让小模型学习到大模型的泛化能力,又能有效区分模糊的错误类型,从而提高分类精度。
技术框架:该方法采用两阶段知识蒸馏框架。第一阶段是标准知识蒸馏,将教师模型的知识迁移到学生模型。第二阶段引入双层边际选择机制,基于教师模型的不确定性和置信度差异,识别四种类型的关键样本。然后,针对不同的数据子集,设计难度自适应机制,平衡硬标签和软标签的贡献。
关键创新:该方法最重要的创新点在于提出了基于认知不确定性的双层边际选择机制,能够有效地挖掘高价值样本。与传统的数据增强方法不同,该方法不是简单地增加数据量,而是选择对模型学习最有帮助的样本进行增强训练。此外,难度自适应机制能够更好地平衡硬标签和软标签的贡献,从而提高模型的分类精度。
关键设计:双层边际选择机制基于教师模型的不确定性和置信度差异,选择四种类型的样本:高置信度正确样本、高置信度错误样本、低置信度正确样本和低置信度错误样本。难度自适应机制根据样本的难度,动态调整硬标签和软标签的权重。具体的损失函数设计未知,论文中可能包含相关细节。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在MAP-Charting数据集上实现了0.9585的MAP@3,相比基线方法提升了17.8%。此外,仅使用4B参数模型,在中学的跨主题测试中实现了84.38%的准确率,显著优于sota LLM(67.73%)和标准微调的72B模型(81.25%)。这些结果表明,该方法在学生错误概念分类任务上具有显著的优势。
🎯 应用场景
该研究成果可应用于智能教育平台,帮助教师更准确地识别学生的错误概念,从而提供个性化的学习辅导。通过部署在边缘设备上的小模型,可以实现实时的错误诊断和反馈,提升学生的学习效率和效果。该技术还有潜力应用于其他需要精确分类和知识迁移的领域。
📄 摘要(原文)
Accurately identifying student misconceptions is crucial for personalized education but faces three challenges: (1) data scarcity with long-tail distribution, where authentic student reasoning is difficult to synthesize; (2) fuzzy boundaries between error categories with high annotation noise; (3) deployment parado-large models overlook unconventional approaches due to pretraining bias and cannot be deployed on edge, while small models overfit to noise. Unlike traditional methods that increase diversity through large-scale data synthesis, we propose a two-stage knowledge distillation framework that mines high-value samples from existing data. The first stage performs standard distillation to transfer task capabilities. The second stage introduces a dual-layer marginal selection mechanism based on cognitive uncertainty, identifying four types of critical samples based on teacher model uncertainty and confidence differences. For different data subsets, we design difficulty-adaptive mechanism to balance hard/soft label contributions, enabling student models to inherit inter-class relationships from teacher soft labels while distinguishing ambiguous error types. Experiments show that with augmented training on only 10.30% of filtered samples, we achieve MAP@3 of 0.9585 (+17.8%) on the MAP-Charting dataset, and using only a 4B parameter model, we attain 84.38% accuracy on cross-topic tests of middle school algebra misconception benchmarks, significantly outperforming sota LLM (67.73%) and standard fine-tuned 72B models (81.25%). Our code is available at https://github.com/RoschildRui/acl2026_map.