LLM-driven Effective Knowledge Tracing by Integrating Dual-channel Difficulty

📄 arXiv: 2502.19915v2 📥 PDF

作者: Jiahui Cen, Jianghao Lin, Weixuan Zhong, Dong Zhou, Jin Chen, Aimin Yang, Yongmei Zhou

分类: cs.AI

发布日期: 2025-02-27 (更新: 2025-04-30)

备注: During a careful review of our base-experiment results, we discovered a possible error in the way some data were recorded. To ensure the integrity and accuracy of our work, we must correct these results and revise the corresponding analysis before making the manuscript publicly available


💡 一句话要点

提出DDKT框架,利用LLM和RAG提升知识追踪的准确性和可解释性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识追踪 大型语言模型 检索增强生成 难度感知 个性化学习

📋 核心要点

  1. 现有知识追踪模型在处理新问题时面临冷启动问题,且难以准确跟踪学生个体掌握水平,导致个性化建模不清晰。
  2. DDKT框架利用LLM和RAG进行主观难度评估,并结合难度偏差感知算法和学生掌握算法,实现精确的难度测量。
  3. 实验结果表明,DDKT在两个真实数据集上显著优于现有模型,AUC指标提升2%到10%,并有效解决了冷启动问题。

📝 摘要(中文)

知识追踪(KT)是智能辅导系统中的一项基础技术,用于模拟学生在学习过程中知识状态的变化,跟踪个性化的知识掌握情况并预测表现。然而,当前的KT模型面临三个主要挑战:(1)由于交互记录稀疏,模型在遇到新问题时面临冷启动问题,难以进行精确建模;(2)传统模型仅使用历史交互记录进行学生个性化建模,无法准确跟踪个体掌握水平,导致个性化建模不清晰;(3)决策过程对教育工作者不透明,难以理解模型的判断。为了应对这些挑战,我们提出了一种新颖的双通道难度感知知识追踪(DDKT)框架,该框架利用大型语言模型(LLM)和检索增强生成(RAG)进行主观难度评估,同时集成难度偏差感知算法和学生掌握算法以进行精确的难度测量。我们的框架引入了三个关键创新:(1)难度平衡感知序列(DBPS) - 学生的主观感知与客观难度相结合,通过注意力机制测量LLM评估的难度、数学统计难度与学生主观感知难度之间的差距;(2)难度掌握比率(DMR) - 通过不同的难度区域精确建模学生的掌握水平;(3)知识状态更新机制 - 通过门控网络实现个性化的知识获取并更新学生的知识状态。在两个真实数据集上的实验结果表明,我们的方法始终优于九个基线模型,AUC指标提高了2%到10%,同时有效地解决了冷启动问题并增强了模型的可解释性。

🔬 方法详解

问题定义:现有的知识追踪模型在处理新问题时,由于交互数据稀疏,面临严重的冷启动问题。此外,传统模型难以准确捕捉学生的个体掌握水平,导致个性化建模效果不佳。同时,模型的决策过程缺乏透明度,教育工作者难以理解模型的判断依据。

核心思路:DDKT框架的核心思路是结合大型语言模型(LLM)和检索增强生成(RAG)进行主观难度评估,并将其与客观难度测量相结合,从而更准确地估计题目的难度。同时,通过引入难度掌握比率(DMR)来精确建模学生的掌握水平,并使用门控网络更新学生的知识状态。

技术框架:DDKT框架主要包含以下几个模块:1) 难度评估模块:利用LLM和RAG对题目进行主观难度评估,并结合数学统计方法计算客观难度。2) 难度平衡感知序列(DBPS)模块:通过注意力机制融合LLM评估的难度、数学统计难度和学生主观感知难度,得到难度平衡感知序列。3) 难度掌握比率(DMR)模块:根据不同的难度区域,精确建模学生的掌握水平。4) 知识状态更新模块:使用门控网络实现个性化的知识获取,并更新学生的知识状态。

关键创新:DDKT框架的关键创新在于:1) 引入LLM和RAG进行主观难度评估,弥补了传统方法仅依赖客观统计数据的不足。2) 提出了难度平衡感知序列(DBPS),有效融合了主观和客观难度信息。3) 提出了难度掌握比率(DMR),能够更精确地建模学生的掌握水平。

关键设计:在难度评估模块中,使用了预训练的LLM,并结合RAG技术,从题库中检索相似题目,以提高难度评估的准确性。在DBPS模块中,使用了注意力机制来动态调整不同难度信息的权重。在知识状态更新模块中,使用了门控循环单元(GRU)来更新学生的知识状态。

📊 实验亮点

实验结果表明,DDKT框架在两个真实数据集上均优于九个基线模型,AUC指标提升了2%到10%。DDKT在解决冷启动问题和提高模型可解释性方面也表现出色。这些结果表明,DDKT是一种有效的知识追踪方法,具有很强的实际应用价值。

🎯 应用场景

DDKT框架可应用于智能辅导系统、在线教育平台和个性化学习工具等领域。通过更准确地跟踪学生的知识掌握情况,DDKT可以为学生提供更个性化的学习建议和练习题目,从而提高学习效率和效果。此外,DDKT的可解释性设计有助于教育工作者理解模型的判断依据,从而更好地指导教学。

📄 摘要(原文)

Knowledge Tracing (KT) is a fundamental technology in intelligent tutoring systems used to simulate changes in students' knowledge state during learning, track personalized knowledge mastery, and predict performance. However, current KT models face three major challenges: (1) When encountering new questions, models face cold-start problems due to sparse interaction records, making precise modeling difficult; (2) Traditional models only use historical interaction records for student personalization modeling, unable to accurately track individual mastery levels, resulting in unclear personalized modeling; (3) The decision-making process is opaque to educators, making it challenging for them to understand model judgments. To address these challenges, we propose a novel Dual-channel Difficulty-aware Knowledge Tracing (DDKT) framework that utilizes Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG) for subjective difficulty assessment, while integrating difficulty bias-aware algorithms and student mastery algorithms for precise difficulty measurement. Our framework introduces three key innovations: (1) Difficulty Balance Perception Sequence (DBPS) - students' subjective perceptions combined with objective difficulty, measuring gaps between LLM-assessed difficulty, mathematical-statistical difficulty, and students' subjective perceived difficulty through attention mechanisms; (2) Difficulty Mastery Ratio (DMR) - precise modeling of student mastery levels through different difficulty zones; (3) Knowledge State Update Mechanism - implementing personalized knowledge acquisition through gated networks and updating student knowledge state. Experimental results on two real datasets show our method consistently outperforms nine baseline models, improving AUC metrics by 2% to 10% while effectively addressing cold-start problems and enhancing model interpretability.