Finding Words Associated with DIF: Predicting Differential Item Functioning using LLMs and Explainable AI
作者: Hotaka Maeda, Yikai Lu
分类: cs.CL, cs.AI
发布日期: 2025-02-10
备注: 14 pages, 2 figures, 6 tables
DOI: 10.1111/jedm.70017
💡 一句话要点
利用LLM和可解释AI预测DIF,发现与DIF相关的词汇以提升评估公平性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 差异项目功能 大型语言模型 可解释人工智能 教育评估 公平性
📋 核心要点
- 传统DIF分析依赖于统计方法,对于小样本亚群体效果不佳,且人工审查耗时且结果不确定。
- 利用LLM预测DIF,并结合XAI方法识别与DIF相关的关键词,辅助项目编写和DIF分析。
- 实验结果表明,该方法能够有效预测DIF,并识别出与测试蓝图相关的关键词,为评估公平性提供支持。
📝 摘要(中文)
本文微调并比较了多个基于Transformer的编码器大型语言模型(LLM),以从项目文本中预测差异项目功能(DIF)。然后,我们将可解释的人工智能(XAI)方法应用于这些模型,以识别与DIF相关的特定词汇。数据包括为3至11年级学生的英语语言艺术和数学总结性州评估设计的42,180个项目。在八个焦点和参考组对中,预测$R^2$的范围为0.04到0.32。我们的研究结果表明,许多与DIF相关的词汇反映了测试蓝图中设计包含的次要子领域,而不是应该从评估中删除的与结构无关的项目内容。这可能解释了为什么对DIF项目的定性审查经常产生令人困惑或不确定的结果。我们的方法可用于在项目编写过程中筛选与DIF相关的词汇以进行立即修改,或通过突出显示文本中的关键词来帮助审查传统的DIF分析结果。这项研究的扩展可以提高评估程序的公平性,特别是那些缺乏资源来构建高质量项目,以及在传统DIF分析中没有足够样本量的小型亚群体。
🔬 方法详解
问题定义:论文旨在解决差异项目功能(DIF)的预测问题。现有方法,如传统的统计DIF分析,在小样本情况下表现不佳,且依赖人工审查,耗时且主观。此外,人工审查的结果往往不确定,难以指导项目改进。
核心思路:论文的核心思路是利用大型语言模型(LLM)学习项目文本与DIF之间的关系,从而实现自动化的DIF预测。通过结合可解释人工智能(XAI)方法,进一步识别与DIF相关的关键词,为项目编写者提供直接的反馈,并辅助传统DIF分析。
技术框架:整体框架包括数据预处理、模型微调、DIF预测和XAI分析四个主要阶段。首先,对包含项目文本和DIF标签的数据进行预处理。然后,选择基于Transformer的编码器LLM,并在预处理后的数据上进行微调,使其能够预测DIF。接着,使用微调后的模型对新项目进行DIF预测。最后,应用XAI方法(具体方法未知)分析模型的预测结果,识别与DIF相关的关键词。
关键创新:论文的关键创新在于将LLM和XAI方法结合起来,用于DIF预测和关键词识别。与传统的统计方法相比,该方法能够处理文本数据,并提供可解释的结果,从而更好地理解DIF的成因。此外,该方法在小样本情况下可能表现更好(具体效果未知)。
关键设计:论文选择了基于Transformer的编码器LLM作为基础模型,并使用R^2作为评估指标。具体使用的LLM模型、XAI方法、损失函数、网络结构等技术细节未在摘要中详细说明,属于未知信息。
📊 实验亮点
实验结果表明,该方法能够有效预测DIF,预测$R^2$范围为0.04到0.32。研究发现,许多与DIF相关的词汇反映了测试蓝图中设计包含的次要子领域,而非与结构无关的内容。这为理解DIF的成因提供了新的视角,并解释了传统DIF分析结果不确定的原因。
🎯 应用场景
该研究成果可应用于大规模教育评估,尤其是在资源有限或小样本亚群体的情况下,能够辅助项目编写者识别潜在的DIF问题,提高评估的公平性和有效性。此外,该方法还可以用于其他类型的文本数据分析,例如,识别与特定人群相关的偏见性语言。
📄 摘要(原文)
We fine-tuned and compared several encoder-based Transformer large language models (LLM) to predict differential item functioning (DIF) from the item text. We then applied explainable artificial intelligence (XAI) methods to these models to identify specific words associated with DIF. The data included 42,180 items designed for English language arts and mathematics summative state assessments among students in grades 3 to 11. Prediction $R^2$ ranged from .04 to .32 among eight focal and reference group pairs. Our findings suggest that many words associated with DIF reflect minor sub-domains included in the test blueprint by design, rather than construct-irrelevant item content that should be removed from assessments. This may explain why qualitative reviews of DIF items often yield confusing or inconclusive results. Our approach can be used to screen words associated with DIF during the item-writing process for immediate revision, or help review traditional DIF analysis results by highlighting key words in the text. Extensions of this research can enhance the fairness of assessment programs, especially those that lack resources to build high-quality items, and among smaller subpopulations where we do not have sufficient sample sizes for traditional DIF analyses.