GradeLegal: Automated Grading for German Legal Cases
作者: Abdullah Al Zubaer, Lorenz Wendlinger, Simon Alexander Nonn, Michael Granitzer, Jelena Mitrovic
分类: cs.CL
发布日期: 2026-05-20
💡 一句话要点
GradeLegal:利用大型语言模型实现德国法律案例解答的自动评分
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 法律案例评分 大型语言模型 自动化评估 提示工程 模型集成
📋 核心要点
- 德国法律考试评分面临评分员短缺和工作量大等问题,亟需自动化解决方案。
- 该研究探索利用大型语言模型(LLM)自动评分德国法律案例解答,以提升效率和可扩展性。
- 实验表明,结合示例解答和评分标准,LLM在公法评分上能达到接近专家水平,集成模型进一步提升效果。
📝 摘要(中文)
德国法律考试解答的评分面临着日益增长的工作量和合格评分员的短缺,导致反馈延迟并造成瓶颈。同时,这是一项高风险的专家任务,因为国家考试成绩对德国的职业生涯结果有很大影响。尽管具有实际意义,但文献缺乏对有效法律考试评分方法的系统研究。为了解决这一差距,我们研究了大型语言模型(LLM)是否可以支持德国刑法和公法案例解答的自动评分,从而实现可扩展的反馈和学生自测。我们对27个专有和开源LLM进行了系统评估,对逐步添加任务相关信息(如示例解答和评分标准)的提示策略进行了基准测试。使用二次加权 Kappa (QWK),在给定示例解答和评分标准的情况下,面向推理的 LLM 可以近似公法方面的专家评分(高达 0.91),而刑法方面的专家评分则为 0.60,这表明刑法方面的评分任务更难。除了单模型评分之外,集成模型比其最佳成员的协议提高了高达 0.15,并且可以替代更强大的闭源单模型。此外,我们的研究结果表明,有效的提示设计和模型选择对于基于 LLM 的可靠法律考试评分是必要的。
🔬 方法详解
问题定义:论文旨在解决德国法律考试解答评分效率低下的问题。现有方法依赖人工评分,耗时且易受主观因素影响,无法满足日益增长的评分需求。缺乏系统性的法律考试自动评分方法研究。
核心思路:核心思路是利用大型语言模型(LLM)的自然语言理解和生成能力,模拟专家评分员的思维过程,对法律案例解答进行自动评估。通过精心设计的提示策略,引导LLM理解法律知识、案例背景和评分标准。
技术框架:整体流程包括数据准备(法律案例解答集)、模型选择(27个LLM)、提示工程(构建包含示例解答和评分标准的提示)、模型推理(LLM生成评分)和结果评估(使用QWK评估模型评分与专家评分的一致性)。
关键创新:关键创新在于系统性地研究了不同LLM和提示策略在法律案例自动评分中的表现。通过对比不同模型的性能,并探索了集成学习方法,提升了评分的准确性和可靠性。此外,该研究还揭示了不同法律领域(刑法和公法)评分任务的难度差异。
关键设计:提示工程是关键设计之一,通过逐步添加任务相关信息(如示例解答和评分标准)来优化提示。评估指标采用二次加权 Kappa (QWK),用于衡量模型评分与专家评分之间的一致性。模型集成采用简单的平均策略,将多个模型的预测结果进行平均。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在公法领域,结合示例解答和评分标准,面向推理的LLM可以达到接近专家水平的评分一致性(QWK高达0.91)。集成模型相比最佳单模型,一致性提升高达0.15。研究还发现,刑法评分任务难度高于公法,提示设计和模型选择对评分结果至关重要。
🎯 应用场景
该研究成果可应用于大规模法律考试的自动评分,减轻评分员负担,缩短反馈周期,并为学生提供个性化的学习辅助。此外,该方法还可扩展到其他需要专业知识评估的领域,如医学、金融等,具有广泛的应用前景。
📄 摘要(原文)
Grading German legal exam solutions faces growing volumes and a shortage of qualified graders, delaying feedback and creating a bottleneck. At the same time, it is a high-stakes expert task, since state exam grades strongly influence career outcomes in Germany. Despite this practical relevance, literature lacks systematic studies on effective methods for grading legal exams. To address this gap, we investigate whether large language models (LLMs) can support the automated grading of German legal case solutions in criminal and public law, thereby enabling scalable feedback and student self-testing. We present a systematic evaluation of 27 proprietary and open-source LLMs, benchmarking prompting strategies that incrementally add task-related information, such as a sample solution and a grading rubric. Using quadratic weighted kappa (QWK), reasoning-oriented LLMs can approximate expert grading in public law when given a sample solution and a grading rubric (up to 0.91), compared to 0.60 in criminal law, suggesting a harder grading task in criminal law. Beyond single-model grading, ensembling improves agreement by up to 0.15 over its best member and can offer an alternative to stronger closed-source single models. In addition, our findings suggest that effective prompt design and model selection are necessary for reliable LLM-based grading of legal exams.