Validity Arguments For Constructed Response Scoring Using Generative Artificial Intelligence Applications

📄 arXiv: 2501.02334v1 📥 PDF

作者: Jodi M. Casabianca, Daniel F. McCaffrey, Matthew S. Johnson, Naim Alper, Vladimir Zubenko

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-01-04

备注: 33 pages, 2 figures, 6 tables; This work was presented at the 2024 meeting of the International Testing Commission in Granada, Spain


💡 一句话要点

针对生成式AI在开放式问答评分中的应用,提出一套验证性证据收集的最佳实践。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式AI 开放式问答评分 验证性证据 教育测评 自然语言处理

📋 核心要点

  1. 传统AI评分依赖手工特征工程,成本高且效果受限,而生成式AI在开放式问答评分中展现出潜力,但其应用缺乏充分的验证性证据。
  2. 论文提出一套针对生成式AI评分系统的验证性证据收集最佳实践,对比人工评分、特征工程AI评分和生成式AI评分的不同验证需求。
  3. 通过标准化测试的开放式问答评分数据,展示了不同评分系统的验证性证据收集,并讨论了结合多个AI评分以提升覆盖率的方法。

📝 摘要(中文)

大型语言模型和生成式人工智能(AI)能力的快速发展,使其在高风险测试环境中得到广泛应用的可能性越来越大。在开放式问答评分中使用生成式AI特别有吸引力,因为它减少了传统AI评分中手工设计特征所需的工作量,甚至可能优于这些方法。本文旨在强调基于特征的AI应用与生成式AI应用在开放式问答评分系统中的差异,并提出一套最佳实践,用于收集验证性证据,以支持使用生成式AI的评分系统对开放式问答的评分结果的使用和解释。我们比较了在使用人工评分、基于特征的自然语言处理AI评分引擎和生成式AI的评分系统中所需的验证性证据。由于缺乏透明度以及生成式AI特有的其他问题(如一致性),生成式AI环境中所需的证据比基于特征的NLP评分环境中所需的证据更为广泛。来自标准化测试的开放式问答评分数据展示了不同类型评分系统的验证性证据收集,并强调了在为这些分数构建验证性论证时存在的诸多复杂性和考虑因素。此外,我们讨论了如何评估AI评分,可能包括考虑一种贡献式评分方法,即在缺乏人工评分的情况下,结合来自不同来源的多个AI评分,将覆盖更多的结构。

🔬 方法详解

问题定义:论文旨在解决生成式AI应用于开放式问答评分时,缺乏充分的验证性证据支持的问题。现有基于特征工程的AI评分方法需要大量人工设计特征,成本高昂且难以泛化。而直接采用生成式AI进行评分,由于其黑盒特性和潜在的不一致性,使得评分结果的可靠性和有效性难以保证。因此,如何为生成式AI评分系统建立一套完善的验证框架,是本文要解决的核心问题。

核心思路:论文的核心思路是,借鉴传统评分系统的验证方法,并针对生成式AI的特点,提出一套更全面、更严格的验证性证据收集流程。这套流程不仅要关注评分结果的准确性和一致性,还要关注生成式AI的透明度和可解释性,以及其潜在的偏见和风险。通过收集多方面的证据,为生成式AI评分系统的使用和解释提供可靠的依据。

技术框架:论文并没有提出一个具体的AI模型或算法框架,而是侧重于构建一个验证框架。该框架主要包含以下几个阶段: 1. 明确评分目标和标准:定义评分的维度、指标和预期结果。 2. 选择合适的生成式AI模型:根据评分任务的特点,选择合适的模型架构和预训练数据。 3. 收集验证性证据:包括评分准确性、一致性、公平性、透明度等方面的证据。 4. 评估和改进评分系统:根据验证结果,对评分系统进行调整和优化。 5. 持续监控和维护:定期评估评分系统的性能,并及时处理潜在的问题。

关键创新:论文的关键创新在于,针对生成式AI的特点,提出了更全面的验证性证据收集方法。与传统的基于特征工程的AI评分系统相比,生成式AI评分系统的验证需要关注以下几个方面: 1. 透明度和可解释性:如何理解生成式AI的评分逻辑?如何解释评分结果? 2. 一致性:生成式AI在不同时间、不同环境下的评分结果是否一致? 3. 公平性:生成式AI是否存在偏见?是否对不同群体存在歧视? 4. 鲁棒性:生成式AI在面对噪声数据或对抗性攻击时,是否能够保持稳定的性能?

关键设计:论文并没有涉及具体的模型参数或损失函数设计。其关键设计在于,提出了一个验证性证据收集的框架,并强调了在生成式AI评分系统中,需要关注的几个关键问题。例如,论文建议采用多种方法来评估评分结果的准确性,包括与人工评分进行比较、分析评分结果的分布、以及评估评分结果对决策的影响。此外,论文还建议采用技术手段来提高生成式AI的透明度和可解释性,例如使用注意力机制来可视化模型的关注点,或者使用LIME等方法来解释模型的预测结果。

📊 实验亮点

论文通过实际的标准化测试数据,展示了不同评分系统的验证性证据收集过程,并强调了在为生成式AI评分系统构建验证性论证时需要考虑的复杂性和因素。此外,论文还讨论了如何通过结合来自不同来源的多个AI评分,来提升评分的覆盖率和准确性。

🎯 应用场景

该研究成果可应用于各类教育测评场景,例如标准化考试、在线作业批改、论文评分等。通过采用生成式AI进行自动评分,可以降低人工成本,提高评分效率,并为学生提供更及时、更个性化的反馈。此外,该研究提出的验证框架,有助于确保生成式AI评分系统的可靠性和有效性,避免潜在的偏见和风险。

📄 摘要(原文)

The rapid advancements in large language models and generative artificial intelligence (AI) capabilities are making their broad application in the high-stakes testing context more likely. Use of generative AI in the scoring of constructed responses is particularly appealing because it reduces the effort required for handcrafting features in traditional AI scoring and might even outperform those methods. The purpose of this paper is to highlight the differences in the feature-based and generative AI applications in constructed response scoring systems and propose a set of best practices for the collection of validity evidence to support the use and interpretation of constructed response scores from scoring systems using generative AI. We compare the validity evidence needed in scoring systems using human ratings, feature-based natural language processing AI scoring engines, and generative AI. The evidence needed in the generative AI context is more extensive than in the feature-based NLP scoring context because of the lack of transparency and other concerns unique to generative AI such as consistency. Constructed response score data from standardized tests demonstrate the collection of validity evidence for different types of scoring systems and highlights the numerous complexities and considerations when making a validity argument for these scores. In addition, we discuss how the evaluation of AI scores might include a consideration of how a contributory scoring approach combining multiple AI scores (from different sources) will cover more of the construct in the absence of human ratings.