PEMUTA: Pedagogically-Enriched Multi-Granular Undergraduate Thesis Assessment

📄 arXiv: 2507.19556v1 📥 PDF

作者: Jialu Zhang, Qingyang Sun, Qianyi Wang, Weiyi Zhang, Zunjie Xiao, Xiaoqing Zhang, Jianfeng Ren, Jiang Liu

分类: cs.CY, cs.AI

发布日期: 2025-07-25


💡 一句话要点

PEMUTA:一种用于本科毕业论文多粒度评估的教学增强框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 本科毕业论文评估 大型语言模型 多粒度评估 教学理论 分层提示 上下文学习 教育智能

📋 核心要点

  1. 现有LLM在本科毕业论文评估中,通常只提供单一的整体评分,忽略了论文在结构、逻辑等多个维度上的细致评估。
  2. PEMUTA框架利用维果茨基理论和布鲁姆分类法,设计分层提示方案,从六个细粒度维度评估论文,并结合上下文学习技术。
  3. 实验结果表明,PEMUTA与专家评估高度一致,为细粒度、教学导向的本科毕业论文评估提供了有效方法。

📝 摘要(中文)

本科毕业论文(UGTE)在评估学生大学期间的累积学术发展方面起着不可或缺的作用。虽然大型语言模型(LLM)已经推动了教育智能的发展,但它们通常侧重于整体评估,仅使用单一的评估分数,而忽略了多方面标准中错综复杂的细微差别,限制了它们反映结构标准、教学目标和多样化学术能力的能力。同时,教学理论长期以来通过对认知发展、学科思维和学业表现的多维度评估,为人工UGTE评估提供了信息,但在自动化设置中仍未得到充分利用。受此研究差距的驱动,我们率先提出了PEMUTA,这是一个教学增强框架,可以有效地激活LLM中特定领域的知识,用于多粒度UGTE评估。在维果茨基理论和布鲁姆分类法的指导下,PEMUTA采用了一种分层提示方案,该方案从六个细粒度维度评估UGTE:结构(Structure)、逻辑(Logic)、原创性(Originality)、写作(Writing)、熟练度(Proficiency)和严谨性(Rigor)(SLOWPR),然后进行整体综合。两种上下文学习技术,即少样本提示和角色扮演提示,也被纳入,以进一步加强与专家判断的对齐,而无需进行微调。我们整理了一个包含专家提供的SLOWPR对齐注释的真实UGTE数据集,以支持多粒度UGTE评估。大量的实验表明,PEMUTA实现了与专家评估的强大对齐,并展示了在细粒度、教学知情的UGTE评估方面的强大潜力。

🔬 方法详解

问题定义:现有基于LLM的本科毕业论文评估方法主要集中在整体评估,仅输出一个单一的评估分数。这种方法忽略了论文在结构、逻辑、原创性、写作、熟练度和严谨性等多个维度上的细微差别,无法全面反映学生的学术能力和论文的质量。人工评估虽然能进行多维度评估,但效率较低且成本较高。

核心思路:PEMUTA的核心思路是利用教学理论(维果茨基理论和布鲁姆分类法)指导LLM进行多粒度评估。通过设计分层提示方案,将整体评估分解为六个细粒度维度(SLOWPR),并利用上下文学习技术(少样本提示和角色扮演提示)来增强LLM与专家评估的对齐。

技术框架:PEMUTA框架包含以下主要阶段:1) SLOWPR维度分解:将整体评估目标分解为结构、逻辑、原创性、写作、熟练度和严谨性六个维度。2) 分层提示设计:针对每个维度设计特定的提示,引导LLM进行评估。3) 上下文学习:利用少样本提示和角色扮演提示,提供专家评估示例,增强LLM的评估能力。4) 整体综合:将各个维度的评估结果综合起来,得到最终的整体评估结果。

关键创新:PEMUTA的关键创新在于将教学理论融入到LLM的提示设计中,实现了对本科毕业论文的多粒度评估。与传统的整体评估方法相比,PEMUTA能够提供更细致、更全面的评估结果,更好地反映学生的学术能力和论文的质量。此外,PEMUTA还利用上下文学习技术,增强了LLM与专家评估的对齐,提高了评估的准确性。

关键设计:PEMUTA的关键设计包括:1) SLOWPR维度的选择:这些维度是根据教学理论和专家经验选择的,能够全面反映本科毕业论文的质量。2) 分层提示的设计:针对每个维度,设计了特定的提示,引导LLM关注该维度的关键特征。3) 上下文学习样本的选择:选择了具有代表性的专家评估示例,以增强LLM的评估能力。4) 整体综合方法:采用加权平均或其他综合方法,将各个维度的评估结果综合起来。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PEMUTA在多粒度本科毕业论文评估方面取得了显著成果。PEMUTA与专家评估的对齐程度明显高于传统的整体评估方法。具体而言,PEMUTA在各个SLOWPR维度上的评估结果与专家评估的相关性均较高,表明PEMUTA能够有效地捕捉到论文在各个维度上的质量特征。此外,PEMUTA的整体评估结果也与专家评估高度一致。

🎯 应用场景

PEMUTA可应用于本科毕业论文的自动评估,减轻教师的评估负担,提高评估效率和一致性。此外,PEMUTA提供的多维度评估结果可以为学生提供更具体的反馈,帮助他们改进论文质量。该框架还可扩展到其他类型的学术文本评估,例如课程论文、研究报告等,具有广泛的应用前景。

📄 摘要(原文)

The undergraduate thesis (UGTE) plays an indispensable role in assessing a student's cumulative academic development throughout their college years. Although large language models (LLMs) have advanced education intelligence, they typically focus on holistic assessment with only one single evaluation score, but ignore the intricate nuances across multifaceted criteria, limiting their ability to reflect structural criteria, pedagogical objectives, and diverse academic competencies. Meanwhile, pedagogical theories have long informed manual UGTE evaluation through multi-dimensional assessment of cognitive development, disciplinary thinking, and academic performance, yet remain underutilized in automated settings. Motivated by the research gap, we pioneer PEMUTA, a pedagogically-enriched framework that effectively activates domain-specific knowledge from LLMs for multi-granular UGTE assessment. Guided by Vygotsky's theory and Bloom's Taxonomy, PEMUTA incorporates a hierarchical prompting scheme that evaluates UGTEs across six fine-grained dimensions: Structure, Logic, Originality, Writing, Proficiency, and Rigor (SLOWPR), followed by holistic synthesis. Two in-context learning techniques, \ie, few-shot prompting and role-play prompting, are also incorporated to further enhance alignment with expert judgments without fine-tuning. We curate a dataset of authentic UGTEs with expert-provided SLOWPR-aligned annotations to support multi-granular UGTE assessment. Extensive experiments demonstrate that PEMUTA achieves strong alignment with expert evaluations, and exhibits strong potential for fine-grained, pedagogically-informed UGTE evaluations.