From Learning Resources to Competencies: LLM-Based Tagging with Evidence and Graph Constraints
作者: Ngoc Luyen Le, Marie-Hélène Abel, Bertrand Laforge
分类: cs.AI, cs.IR
发布日期: 2026-05-27
💡 一句话要点
提出基于LLM和图约束的标签方法,实现学习资源到能力模型的自动对齐。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 能力模型 学习资源标注 图约束 教育分析
📋 核心要点
- 人工标注学习资源到能力框架的映射耗时费力,而全自动方法缺乏透明性,难以信任。
- 利用LLM作为标签器,结合BM25检索候选能力,并引入图约束来优化标签预测,提升准确性。
- 实验表明,该方法在片段和资源级别上均优于现有方法,并能提供可追溯的证据,利于分析。
📝 摘要(中文)
本文提出了一种端到端的对齐流程,利用大型语言模型(LLM)作为受约束的、能生成证据的标签器,旨在将学习资源与结构化的能力框架联系起来,从而在学习管理系统(LMS)中实现基于能力的搜索和课程分析。首先,将LMS资源(包括教学内容和评估)分割成有意义的教学片段。然后,对于每个片段,从结构化的能力画像中检索出一小组候选能力,这些画像通过基于图的上下文进行了丰富。LLM随后从该集合中选择最相关的能力,并提供来自片段文本的支持证据跨度。这些预测使用能力图的结构进行细化,并在资源级别进行聚合。在基于法国贡比涅科技大学(UTC)计算机科学系的能力参照数据集上评估了该方法,该数据集涵盖了多个课程材料中的22项能力。实验结果表明,LLM+BM25+Graph (LBG)流程取得了良好的效果,在片段级别上的micro-F1为0.57,macro-F1为0.50,在资源级别上的macro-F1为0.51,MRR为0.82,优于零样本和少样本LLM变体、检索/相似性基线和监督分类器,同时还生成了更易于机械追踪的证据跨度,以支持人工审计和教育分析。
🔬 方法详解
问题定义:论文旨在解决学习管理系统中学习资源(如课程材料和评估)与结构化能力框架之间的自动对齐问题。现有方法,如人工标注,成本高昂且效率低下。而完全自动化的方法通常缺乏透明度,难以解释其决策过程,导致用户信任度不高。因此,需要一种既能自动标注,又能提供可解释证据的方法。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大语义理解和生成能力,结合信息检索技术和图结构约束,构建一个端到端的自动标注流程。LLM负责从候选能力集合中选择最相关的能力,并从文本片段中提取支持证据。信息检索技术用于缩小候选能力范围,图结构约束用于优化LLM的预测结果。
技术框架:整体流程包含以下几个主要阶段:1. 资源分割:将LMS资源分割成有意义的教学片段。2. 候选能力检索:使用BM25算法从结构化的能力画像中检索出一小组候选能力。能力画像通过基于图的上下文进行丰富。3. LLM标签预测:LLM从候选能力集合中选择最相关的能力,并提供来自片段文本的支持证据跨度。4. 图约束优化:利用能力图的结构对LLM的预测结果进行细化。5. 结果聚合:将片段级别的预测结果聚合到资源级别。
关键创新:论文的关键创新在于将LLM作为受约束的、能生成证据的标签器。传统的自动标注方法通常只输出标签,而该方法不仅输出标签,还提供支持证据,提高了透明性和可解释性。此外,结合图结构约束进一步提升了标注的准确性。
关键设计:论文的关键设计包括:1. 使用BM25算法进行候选能力检索,提高了检索效率。2. 利用能力图的结构进行约束,优化了LLM的预测结果。3. LLM被要求提供支持证据,提高了标注的可解释性。具体参数设置和损失函数等细节未在摘要中明确说明,属于未知信息。
📊 实验亮点
实验结果表明,提出的LLM+BM25+Graph (LBG)流程在片段级别上的micro-F1为0.57,macro-F1为0.50,在资源级别上的macro-F1为0.51,MRR为0.82。该方法显著优于零样本和少样本LLM变体、检索/相似性基线和监督分类器,证明了其有效性。
🎯 应用场景
该研究成果可应用于各种在线教育平台和学习管理系统,实现学习资源的自动标注和能力模型的构建。这有助于提升学习资源的检索效率,实现个性化学习推荐,并为课程分析和教学改进提供数据支持。未来,该方法可扩展到其他领域,如知识图谱构建和信息抽取。
📄 摘要(原文)
Linking learning resources to a structured competency framework is key to enabling competency-based search and curriculum analytics in Learning Management Systems (LMS). However, manual tagging is labor-intensive, and fully automatic methods often lack transparency. In this paper, we present an end-to-end alignment pipeline that uses a large language model (LLM) as a constrained, evidence-producing tagger. LMS resources -both instructional content and assessments -are first segmented into meaningful pedagogical fragments. For each fragment, a small set of candidate competencies is retrieved from structured competency profiles enriched with graph-based context. The LLM then selects the most relevant competencies from this set and provides supporting evidence spans from the fragment text. These predictions are refined using the structure of the competency graph and aggregated at the resource level. We evaluate our approach on a dataset built from the Computer Science department's competency referential at the Université de Technologie de Compiègne (UTC), covering 22 competencies across multiple course materials. Our LLM+BM25+Graph (LBG) pipeline achieves strong results, with a micro-F1 of 0.57 and macro-F1 of 0.50 at the fragment level, 0.51 macro-F1 at the resource level, and an MRR of 0.82outperforming zero-shot and few-shot LLM variants, retrieval/similarity baselines, and supervised classifiers -while also producing more mechanically traceable evidence spans to support human auditing and educational analysis.