The Judge Variable: Challenging Judge-Agnostic Legal Judgment Prediction
作者: Guillaume Zambrano
分类: cs.CL, cs.LG
发布日期: 2025-07-18
备注: 23 pages, 24 figures shorter version submitted to JURIX 2025
💡 一句话要点
提出法官变量,挑战法律判决预测中忽略法官个体差异的假设
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 法律判决预测 法官变量 法律现实主义 机器学习 大型语言模型 儿童监护权 个体决策模式
📋 核心要点
- 现有法律判决预测方法通常假设法官是中立的,忽略了法官个体差异对判决结果的影响。
- 本研究提出通过构建“专家模型”来捕捉单个法官的决策模式,从而提高预测准确率。
- 实验结果表明,专家模型显著优于通用模型,证明法官身份在法律判决中扮演重要角色。
📝 摘要(中文)
本研究通过机器学习预测法国上诉法院的儿童人身监护权判决结果,探讨了法官在法律决策中的作用。基于法律现实主义与形式主义的辩论,我们检验了法官的决策模式是否显著影响案件结果,挑战了法官是中立变量并统一适用法律的假设。为遵守法国隐私法,我们实施了严格的匿名化流程。分析使用了从10306个案件中提取的18937项生活安排裁决。我们将基于单个法官过往裁决训练的模型(专家模型)与基于聚合数据训练的法官无关模型(通用模型)进行了比较。预测流程采用混合方法,结合大型语言模型(LLM)进行结构化特征提取,以及机器学习模型(RF、XGB和SVC)进行结果预测。结果表明,专家模型始终比通用模型具有更高的预测准确率,表现最佳的模型F1分数高达92.85%,而通用模型在20到100倍的样本量下,F1分数为82.63%。专家模型捕捉到了稳定的个体模式,但这些模式无法转移到其他法官身上。领域内和跨领域有效性测试为法律现实主义提供了经验支持,证明法官身份在法律结果中起着可衡量的作用。所有数据和代码都将公开。
🔬 方法详解
问题定义:论文旨在解决法律判决预测中忽略法官个体差异的问题。现有方法通常假设法官是中立的,统一适用法律,这与法律现实主义的观点相悖。现有方法的痛点在于无法捕捉法官的个人偏好和决策模式,导致预测准确率受限。
核心思路:论文的核心思路是构建“专家模型”,即针对每个法官的过往判决数据训练独立的预测模型。通过这种方式,模型可以学习并捕捉特定法官的决策模式和偏好。同时,构建“通用模型”,使用所有法官的数据进行训练,作为对比基线。这样设计的目的是为了验证法官个体差异对判决结果的影响,并量化这种影响的大小。
技术框架:整体框架包含数据预处理、特征提取、模型训练和评估四个主要阶段。首先,对原始法律文本进行匿名化处理,以保护隐私。然后,利用大型语言模型(LLM)从法律文本中提取结构化特征。接下来,分别训练专家模型(针对每个法官)和通用模型(使用所有法官的数据)。最后,使用F1分数等指标评估模型的预测性能,并进行领域内和跨领域有效性测试。
关键创新:最重要的技术创新点在于提出了“法官变量”的概念,并将其纳入法律判决预测模型中。与现有方法不同,本研究不再假设法官是中立的,而是将其视为一个重要的影响因素。通过构建专家模型,可以有效地捕捉法官的个体决策模式,从而提高预测准确率。
关键设计:在特征提取阶段,使用了大型语言模型(LLM)来自动提取结构化特征,避免了人工特征工程的繁琐和主观性。在模型选择方面,尝试了随机森林(RF)、XGBoost和支持向量机(SVC)等多种机器学习模型,并选择了性能最佳的模型。在评估方面,采用了领域内和跨领域有效性测试,以验证模型的泛化能力和鲁棒性。
📊 实验亮点
实验结果表明,专家模型在预测儿童人身监护权判决结果方面显著优于通用模型。表现最佳的专家模型F1分数高达92.85%,而通用模型在使用了20到100倍的样本量的情况下,F1分数仅为82.63%。这表明法官个体差异对判决结果具有显著影响,专家模型能够有效地捕捉这些差异。
🎯 应用场景
该研究成果可应用于法律辅助决策系统,帮助律师和法官更好地理解案件的潜在结果,并评估不同法官可能做出的判决。此外,该研究还可以促进对司法公正性的讨论,并为改进司法系统提供实证依据。未来,该方法可以推广到其他法律领域和司法管辖区。
📄 摘要(原文)
This study examines the role of human judges in legal decision-making by using machine learning to predict child physical custody outcomes in French appellate courts. Building on the legal realism-formalism debate, we test whether individual judges' decision-making patterns significantly influence case outcomes, challenging the assumption that judges are neutral variables that apply the law uniformly. To ensure compliance with French privacy laws, we implement a strict pseudonymization process. Our analysis uses 18,937 living arrangements rulings extracted from 10,306 cases. We compare models trained on individual judges' past rulings (specialist models) with a judge-agnostic model trained on aggregated data (generalist models). The prediction pipeline is a hybrid approach combining large language models (LLMs) for structured feature extraction and ML models for outcome prediction (RF, XGB and SVC). Our results show that specialist models consistently achieve higher predictive accuracy than the general model, with top-performing models reaching F1 scores as high as 92.85%, compared to the generalist model's 82.63% trained on 20x to 100x more samples. Specialist models capture stable individual patterns that are not transferable to other judges. In-Domain and Cross-Domain validity tests provide empirical support for legal realism, demonstrating that judicial identity plays a measurable role in legal outcomes. All data and code used will be made available.