Disentangling Learning from Judgment: Representation Learning for Open Response Analytics

📄 arXiv: 2512.23941v2 📥 PDF

作者: Conrad Borchers, Manit Patel, Seiyon M. Lee, Anthony F. Botelho

分类: cs.CL, cs.CY

发布日期: 2025-12-30 (更新: 2026-01-07)

备注: Short research paper accepted at Learning Analytics and Knowledge (LAK '26)

DOI: 10.1145/3785022.3785042


💡 一句话要点

提出解耦学习与判定的表征学习框架,用于开放式作答分析,提升评分的公平性和透明度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 开放式作答 自动评分 表征学习 解耦学习 教师先验 教育分析 句子嵌入

📋 核心要点

  1. 现有自动评分方法难以区分学生作答内容和教师评分偏好,导致评分结果不够客观公正。
  2. 该论文提出解耦学习与判定的表征学习框架,将内容信号与评分者倾向分离,提高评分透明度。
  3. 实验结果表明,结合教师先验知识和内容嵌入的模型效果最佳(AUC~0.815),显著优于仅使用内容嵌入的模型(AUC~0.626)。

📝 摘要(中文)

开放式作答是学习的核心,但自动评分常常混淆学生所写的内容与教师的评分标准。本文提出了一个分析优先的框架,将内容信号与评分者倾向分离,通过分析使评分过程可见且可审计。使用匿名的ASSISTments数学作答数据,我们将教师历史建模为动态先验,并使用句子嵌入表示文本。我们应用质心归一化和作答-问题嵌入差异,并使用先验显式地建模教师效应,以减少问题和教师相关的混淆。时间验证的线性模型量化了每个信号的贡献,模型分歧浮现出供定性检查的观察结果。结果表明,教师先验严重影响评分预测;当先验与内容嵌入结合时,效果最强(AUC~0.815),而仅内容模型仍然高于偶然水平,但明显较弱(AUC~0.626)。调整评分者效应可以锐化从内容表示中导出的特征的选择,保留更多信息丰富的嵌入维度,并揭示语义证据支持理解而非学生作答方式的表面差异的情况。该贡献提出了一种实用的pipeline,将嵌入从单纯的特征转化为用于反思的学习分析,使教师和研究人员能够检查评分实践在何处与学生推理和学习的证据相符(或冲突)。

🔬 方法详解

问题定义:现有开放式作答的自动评分系统,往往将学生作答的内容本身和教师的评分习惯混淆在一起,导致评分结果难以解释,并且可能存在偏差。例如,某些教师可能更看重答案的格式,而忽略内容上的细微差别。这种混淆使得我们难以评估学生真正的学习情况,也难以发现评分标准中的潜在问题。

核心思路:论文的核心思路是将学生作答的内容信号和教师的评分倾向解耦。通过对教师的评分历史进行建模,可以提取出教师的评分偏好,并将其作为先验知识融入到模型中。同时,使用句子嵌入来表示学生作答的内容,从而捕捉学生答案的语义信息。通过显式地建模教师效应,可以减少问题和教师相关的混淆,从而更准确地评估学生的能力。

技术框架:整体框架包含以下几个主要步骤:1) 数据预处理:对学生作答数据进行清洗和匿名化处理。2) 教师历史建模:将教师的评分历史建模为动态先验,捕捉教师的评分偏好。3) 文本表征:使用句子嵌入技术将学生作答的内容转换为向量表示。4) 特征工程:应用质心归一化和作答-问题嵌入差异等技术,提取更具区分性的特征。5) 模型训练:使用时间验证的线性模型,量化每个信号的贡献,并预测评分结果。6) 结果分析:分析模型的分歧,发现潜在的评分问题,并进行定性检查。

关键创新:该论文的关键创新在于将教师的评分历史建模为动态先验,并将其融入到自动评分模型中。这种方法能够有效地解耦内容信号和评分者倾向,从而提高评分的公平性和透明度。此外,论文还提出了一种实用的pipeline,将嵌入从单纯的特征转化为用于反思的学习分析,使教师和研究人员能够检查评分实践在何处与学生推理和学习的证据相符(或冲突)。

关键设计:论文使用句子嵌入(sentence embeddings)来表示文本,具体使用的嵌入模型未知。教师先验的具体建模方式是动态先验,具体实现细节未知。损失函数采用线性模型,具体形式未知。时间验证的线性模型,具体验证方法未知。

📊 实验亮点

实验结果表明,结合教师先验知识和内容嵌入的模型效果最佳,AUC达到0.815,显著优于仅使用内容嵌入的模型(AUC为0.626)。这表明教师的评分偏好对评分结果有显著影响,并且将教师先验知识融入到模型中可以提高评分的准确性。

🎯 应用场景

该研究成果可应用于在线教育平台、自动评分系统等领域,帮助教师更客观地评估学生的学习情况,发现评分标准中的潜在问题,并为学生提供个性化的学习反馈。此外,该方法还可以用于评估不同教师之间的评分一致性,促进教育公平。

📄 摘要(原文)

Open-ended responses are central to learning, yet automated scoring often conflates what students wrote with how teachers grade. We present an analytics-first framework that separates content signals from rater tendencies, making judgments visible and auditable via analytics. Using de-identified ASSISTments mathematics responses, we model teacher histories as dynamic priors and represent text with sentence embeddings. We apply centroid normalization and response-problem embedding differences, and explicitly model teacher effects with priors to reduce problem- and teacher-related confounds. Temporally-validated linear models quantify the contributions of each signal, and model disagreements surface observations for qualitative inspection. Results show that teacher priors heavily influence grade predictions; the strongest results arise when priors are combined with content embeddings (AUC~0.815), while content-only models remain above chance but substantially weaker (AUC~0.626). Adjusting for rater effects sharpens the selection of features derived from content representations, retaining more informative embedding dimensions and revealing cases where semantic evidence supports understanding as opposed to surface-level differences in how students respond. The contribution presents a practical pipeline that transforms embeddings from mere features into learning analytics for reflection, enabling teachers and researchers to examine where grading practices align (or conflict) with evidence of student reasoning and learning.