Privacy-Preserved Automated Scoring using Federated Learning for Educational Research

作者: Ehsan Latif, Xiaoming Zhai

分类: cs.LG, cs.AI

发布日期: 2025-03-12 (更新: 2025-05-08)

备注: Accepted to AIED25

💡 一句话要点

提出基于联邦学习的隐私保护自动评分框架，用于教育评估研究。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 隐私保护 自动评分 教育评估 低秩适应 大型语言模型 数据异构性

📋 核心要点

教育研究面临严格的数据隐私挑战，传统匿名化和集中式数据收集方法存在安全风险和高昂的后勤成本。
论文提出联邦学习框架，利用LoRA对LLM进行参数高效微调，客户端本地训练仅共享模型更新，解决数据异构性问题。
实验结果表明，该模型在多标签科学评估中达到94.5%的准确率，接近集中式模型性能，并保持了较好的rubric级别评分准确率。

📝 摘要（中文）

本研究针对教育研究中数据隐私问题，提出了一种基于联邦学习（FL）的自动评分框架，旨在消除跨机构共享敏感数据的需求。该方法利用低秩适应（LoRA）对大型语言模型（LLM）进行参数高效的微调，使每个客户端（学校）能够在本地进行训练，仅共享优化后的模型更新。为了解决数据异构性问题，我们实施了一种自适应加权聚合策略，该策略同时考虑了客户端的性能和数据量。我们使用来自九所中学的NGSS对齐的多标签科学评估数据，将我们的模型与两种最先进的FL方法和一个集中式学习基线进行比较。结果表明，我们的模型在FL方法中实现了最高的准确率（94.5%），并且在这些指标上与集中式模型的性能差距在0.5-1.0个百分点之内。此外，它实现了可比较的rubric级别评分准确率，rubric匹配度仅相差1.3%，并且具有较低的分数偏差（MAE），突出了其在保持预测质量和可解释性方面的有效性。

🔬 方法详解

问题定义：教育评估中的自动评分任务面临严重的数据隐私问题。传统的集中式训练方法需要收集学生的原始数据，这不仅增加了数据泄露的风险，也违反了相关的隐私法规。现有的匿名化方法也无法完全消除隐私泄露的风险，并且会带来额外的数据处理开销。因此，如何在保护学生隐私的前提下，实现高效准确的自动评分是一个亟待解决的问题。

核心思路：本论文的核心思路是利用联邦学习（FL）框架，将模型训练过程分散到各个学校（客户端）本地进行，避免直接共享学生的敏感数据。每个学校使用本地数据训练模型，然后将模型更新参数上传到中央服务器进行聚合，最终得到一个全局模型。通过这种方式，可以在保护数据隐私的同时，实现模型的有效训练。

技术框架：该联邦学习框架主要包含以下几个阶段：1) 客户端本地训练：每个学校使用本地的NGSS对齐的多标签科学评估数据，利用LoRA对预训练的LLM进行微调。2) 模型更新上传：每个学校将微调后的模型更新参数上传到中央服务器。3) 服务器端聚合：中央服务器使用自适应加权聚合策略，根据客户端的性能和数据量对模型更新参数进行聚合。4) 全局模型更新：中央服务器将聚合后的全局模型参数下发到各个客户端，进行下一轮的训练。

关键创新：该论文的关键创新在于以下几个方面：1) 隐私保护：使用联邦学习框架，避免了直接共享学生的敏感数据，从而保护了数据隐私。2) 参数高效微调：利用LoRA对LLM进行微调，大大减少了需要训练的参数量，降低了计算成本。3) 自适应加权聚合：提出了一种自适应加权聚合策略，根据客户端的性能和数据量对模型更新参数进行聚合，提高了模型的泛化能力。

关键设计：在客户端本地训练阶段，使用了LoRA对预训练的LLM进行微调。LoRA通过引入低秩矩阵来近似模型参数的更新，从而大大减少了需要训练的参数量。在服务器端聚合阶段，使用了自适应加权聚合策略，权重由客户端的性能（例如，准确率）和数据量共同决定。损失函数使用了交叉熵损失函数，用于多标签分类任务。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该模型在NGSS对齐的多标签科学评估数据上取得了显著的性能提升。在联邦学习框架下，该模型实现了94.5%的准确率，优于其他联邦学习方法，并且与集中式模型的性能差距仅为0.5-1.0个百分点。此外，该模型在rubric级别的评分准确率方面也表现出色，rubric匹配度仅相差1.3%，并且具有较低的分数偏差（MAE）。

🎯 应用场景

该研究成果可广泛应用于教育评估领域，例如自动评分、个性化学习推荐等。通过联邦学习，可以在保护学生隐私的前提下，利用大规模教育数据训练出高性能的模型，从而提高教育质量和效率。此外，该方法还可以推广到其他需要保护数据隐私的领域，例如医疗健康、金融等。

📄 摘要（原文）

Data privacy remains a critical concern in educational research, requiring strict adherence to ethical standards and regulatory protocols. While traditional approaches rely on anonymization and centralized data collection, they often expose raw student data to security vulnerabilities and impose substantial logistical overhead. In this study, we propose a federated learning (FL) framework for automated scoring of educational assessments that eliminates the need to share sensitive data across institutions. Our approach leverages parameter-efficient fine-tuning of large language models (LLMs) with Low-Rank Adaptation (LoRA), enabling each client (school) to train locally while sharing only optimized model updates. To address data heterogeneity, we implement an adaptive weighted aggregation strategy that considers both client performance and data volume. We benchmark our model against two state-of-the-art FL methods and a centralized learning baseline using NGSS-aligned multi-label science assessment data from nine middle schools. Results show that our model achieves the highest accuracy (94.5%) among FL approaches, and performs within 0.5-1.0 percentage points of the centralized model on these metrics. Additionally, it achieves comparable rubric-level scoring accuracy, with only a 1.3% difference in rubric match and a lower score deviation (MAE), highlighting its effectiveness in preserving both prediction quality and interpretability.

Privacy-Preserved Automated Scoring using Federated Learning for Educational Research

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理