Measuring What Matters -- or What's Convenient?: Robustness of LLM-Based Scoring Systems to Construct-Irrelevant Factors
作者: Cole Walsh, Rodica Ivan
分类: cs.CL, cs.AI, cs.CY
发布日期: 2026-03-26
备注: Shortened version of this paper accepted to AIED 2026; experiment 3 was omitted from accepted paper due to space restrictions
💡 一句话要点
评估LLM评分系统对与评估目标无关因素的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 自动化评分 鲁棒性 教育评估 情境判断测试
📋 核心要点
- 自动化评分系统易受与评估目标无关因素的影响,降低了评分的可靠性和公正性。
- 本研究采用双架构LLM评分系统,旨在评估其对多种与评估目标无关因素的鲁棒性。
- 实验结果表明,该系统对填充文本、拼写错误和写作风格具有较强的鲁棒性,但对重复文本和离题内容敏感。
📝 摘要(中文)
自动化系统已广泛应用于教育测试行业的开放式问题评估和论文评分。这些系统通常达到与训练有素的人工评分员相当或更高的性能水平,但经常被证明容易受到与评估目标无关的因素(即与评估结构无关的响应特征)和对抗性条件的影响。鉴于大型语言模型在自动化评分系统中日益普及,人们重新关注“幻觉”以及这些基于LLM的自动化评分方法对与评估目标无关因素的鲁棒性。本研究调查了与情境判断测试中简短的类论文开放式问题评分相关的双架构LLM评分系统,其对与评估目标无关因素的影响。研究发现,该评分系统通常对填充无意义文本、拼写错误和写作复杂性具有鲁棒性。复制大量文本段落导致系统预测的平均分数降低,这与之前对非LLM评分系统的研究结果相矛盾,而离题的回答受到了评分系统的严厉惩罚。这些结果为未来在设计时考虑到与评估目标相关性的基于LLM的评分系统的鲁棒性提供了令人鼓舞的支持。
🔬 方法详解
问题定义:论文旨在评估基于大型语言模型(LLM)的自动化评分系统在面对与评估目标无关因素时的鲁棒性。现有自动化评分系统,尤其是非LLM系统,容易受到诸如文本长度、拼写错误等因素的影响,导致评分结果偏差。这些因素与学生对问题的理解和回答质量无关,因此需要研究LLM评分系统是否能克服这些问题。
核心思路:核心思路是通过系统性地引入各种与评估目标无关的因素(例如,填充无意义文本、拼写错误、复制文本、离题内容)到学生的回答中,然后观察LLM评分系统对这些干扰因素的敏感程度。如果评分结果没有显著变化,则认为该系统对该因素具有鲁棒性。
技术框架:该研究采用了一种双架构的LLM评分系统,具体架构细节未详细描述,但可以推断其包含两个主要模块:一个模块负责理解和提取学生回答中的关键信息,另一个模块负责根据提取的信息进行评分。整体流程是:输入学生回答 -> LLM提取关键信息 -> LLM评分 -> 输出分数。
关键创新:该研究的关键创新在于系统性地评估了LLM评分系统对多种与评估目标无关因素的鲁棒性。与以往研究主要关注非LLM系统不同,该研究关注新兴的LLM技术在自动化评分中的应用,并探讨了其潜在的优势和局限性。
关键设计:论文中没有详细说明关键参数设置、损失函数或网络结构等技术细节。但实验设计包括:1) 对原始学生回答进行修改,引入不同类型的与评估目标无关因素;2) 使用LLM评分系统对修改后的回答进行评分;3) 分析评分结果,评估系统对不同因素的敏感程度。
🖼️ 关键图片
📊 实验亮点
研究发现,该LLM评分系统对填充无意义文本、拼写错误和写作风格具有较强的鲁棒性。与以往研究不同,复制大量文本段落会导致评分降低。此外,系统能够有效识别并惩罚离题的回答。这些结果表明,精心设计的LLM评分系统在一定程度上能够克服传统自动化评分系统的局限性。
🎯 应用场景
该研究成果可应用于教育评估领域,帮助开发更可靠、更公正的自动化评分系统。通过了解LLM评分系统的鲁棒性,可以更好地设计和优化这些系统,减少与评估目标无关因素对评分结果的影响,提高教育评估的公平性和有效性。此外,该研究方法也可推广到其他基于LLM的文本评估任务中。
📄 摘要(原文)
Automated systems have been widely adopted across the educational testing industry for open-response assessment and essay scoring. These systems commonly achieve performance levels comparable to or superior than trained human raters, but have frequently been demonstrated to be vulnerable to the influence of construct-irrelevant factors (i.e., features of responses that are unrelated to the construct assessed) and adversarial conditions. Given the rising usage of large language models in automated scoring systems, there is a renewed focus on ``hallucinations'' and the robustness of these LLM-based automated scoring approaches to construct-irrelevant factors. This study investigates the effects of construct-irrelevant factors on a dual-architecture LLM-based scoring system designed to score short essay-like open-response items in a situational judgment test. It was found that the scoring system was generally robust to padding responses with meaningless text, spelling errors, and writing sophistication. Duplicating large passages of text resulted in lower scores predicted by the system, on average, contradicting results from previous studies of non-LLM-based scoring systems, while off-topic responses were heavily penalized by the scoring system. These results provide encouraging support for the robustness of future LLM-based scoring systems when designed with construct relevance in mind.