LLMs on Trial: Evaluating Judicial Fairness for Large Language Models
作者: Yiran Hu, Zongyue Xue, Haitao Li, Siyuan Zheng, Qingjing Chen, Shaochun Wang, Xihan Zhang, Ning Zheng, Yun Liu, Qingyao Ai, Yiqun Liu, Charles L. A. Clarke, Weixing Shen
分类: cs.CL
发布日期: 2025-07-14 (更新: 2025-08-02)
💡 一句话要点
构建JudiFair数据集与评估框架,揭示LLM在司法公平性上的不足
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 司法公平性 数据集构建 偏差评估 AI伦理
📋 核心要点
- 现有研究缺乏对LLM在司法领域公平性的深入评估,无法保证其决策的公正性。
- 构建JudiFair数据集,提出包含不一致性、偏差和不平衡不准确性的评估框架,全面衡量LLM的司法公平性。
- 实验表明,LLM在司法决策中存在显著的不一致性、偏差和不平衡不准确性,尤其在人口统计学标签上偏差更为严重。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地应用于高风险领域,其决策影响着权利和公平。然而,LLMs的司法公平性及其对社会公正的影响仍未得到充分探索。当LLMs充当法官时,公平解决司法问题的能力是确保其可信度的先决条件。基于司法公平性理论,我们构建了一个全面的框架来衡量LLM的公平性,从而选择了65个标签和161个对应值。将此框架应用于司法系统,我们编制了一个包含177,100个独特案例事实的广泛数据集JudiFair。为了实现稳健的统计推断,我们开发了三个评估指标:不一致性、偏差和不平衡不准确性,并引入了一种评估多个LLM在各种标签上的整体公平性的方法。通过对16个LLM的实验,我们发现了模型中普遍存在的不一致性、偏差和不平衡不准确性,突显了LLM司法公平性的严重不足。特别是,LLMs在人口统计学标签上表现出明显更严重的偏差,在实质性标签上的偏差略小于程序性标签。有趣的是,不一致性的增加与偏差的减少相关,但更准确的预测会加剧偏差。虽然我们发现调整温度参数可以影响LLM的公平性,但模型大小、发布日期和原产国对司法公平性没有表现出显着影响。因此,我们引入了一个公开可用的工具包,其中包含所有数据集和代码,旨在支持未来评估和提高LLM公平性的研究。
🔬 方法详解
问题定义:现有的大型语言模型(LLMs)在司法领域的应用日益广泛,但其决策的公平性缺乏充分的评估。现有的方法难以全面衡量LLM在司法场景下的偏差,尤其是在涉及不同人群和案件类型时,LLM可能表现出不一致、有偏见或不准确的判断,从而损害社会公平。
核心思路:本研究的核心思路是构建一个全面的评估框架,基于司法公平性理论,从多个维度衡量LLM在司法决策中的表现。通过构建包含大量案例事实的数据集JudiFair,并设计相应的评估指标,可以系统地分析LLM在不同标签上的公平性,从而揭示其潜在的偏差和不一致性。
技术框架:该研究的技术框架主要包括以下几个阶段: 1. 构建JudiFair数据集:收集并整理大量的司法案例事实,并标注相关的标签,例如人口统计学信息、案件类型等。 2. 设计评估指标:基于司法公平性理论,设计三个评估指标:不一致性、偏差和不平衡不准确性,用于衡量LLM在不同标签上的表现。 3. 实验评估:使用JudiFair数据集对多个LLM进行评估,分析其在不同标签上的公平性表现。 4. 分析与讨论:分析实验结果,探讨影响LLM公平性的因素,并提出改进建议。
关键创新:该研究的关键创新在于: 1. 构建了JudiFair数据集:这是一个专门用于评估LLM司法公平性的数据集,包含了大量的案例事实和标签信息。 2. 提出了全面的评估框架:该框架基于司法公平性理论,从多个维度衡量LLM的公平性,包括不一致性、偏差和不平衡不准确性。 3. 揭示了LLM在司法决策中的不足:实验结果表明,LLM在司法决策中存在显著的偏差和不一致性,尤其是在涉及人口统计学信息时。
关键设计:在评估指标的设计上,研究者考虑了以下关键因素: 1. 不一致性:衡量LLM在相似案例中是否给出一致的判决。 2. 偏差:衡量LLM在不同人群或案件类型中是否存在系统性的偏见。 3. 不平衡不准确性:衡量LLM在不同人群或案件类型中,错误判决的比例是否均衡。此外,研究还探索了温度参数对LLM公平性的影响,发现调整温度参数可以一定程度上影响LLM的公平性。
📊 实验亮点
实验结果表明,LLM在司法决策中存在普遍的不一致性、偏差和不平衡不准确性。特别是在人口统计学标签上,LLM表现出更明显的偏差。研究还发现,增加不一致性可以减少偏差,但提高预测准确性反而会加剧偏差。调整温度参数可以影响LLM的公平性,但模型大小、发布日期和原产国对司法公平性没有显著影响。
🎯 应用场景
该研究成果可应用于开发更公平、更可靠的AI司法辅助系统。通过使用JudiFair数据集和评估框架,可以帮助开发者识别和纠正LLM在司法决策中的偏差,从而提高AI司法系统的公正性和透明度。此外,该研究还可以为法律从业者提供参考,帮助他们更好地理解和使用AI技术。
📄 摘要(原文)
Large Language Models (LLMs) are increasingly used in high-stakes fields where their decisions impact rights and equity. However, LLMs' judicial fairness and implications for social justice remain underexplored. When LLMs act as judges, the ability to fairly resolve judicial issues is a prerequisite to ensure their trustworthiness. Based on theories of judicial fairness, we construct a comprehensive framework to measure LLM fairness, leading to a selection of 65 labels and 161 corresponding values. Applying this framework to the judicial system, we compile an extensive dataset, JudiFair, comprising 177,100 unique case facts. To achieve robust statistical inference, we develop three evaluation metrics, inconsistency, bias, and imbalanced inaccuracy, and introduce a method to assess the overall fairness of multiple LLMs across various labels. Through experiments with 16 LLMs, we uncover pervasive inconsistency, bias, and imbalanced inaccuracy across models, underscoring severe LLM judicial unfairness. Particularly, LLMs display notably more pronounced biases on demographic labels, with slightly less bias on substance labels compared to procedure ones. Interestingly, increased inconsistency correlates with reduced biases, but more accurate predictions exacerbate biases. While we find that adjusting the temperature parameter can influence LLM fairness, model size, release date, and country of origin do not exhibit significant effects on judicial fairness. Accordingly, we introduce a publicly available toolkit containing all datasets and code, designed to support future research in evaluating and improving LLM fairness.