Not ready for the bench: LLM legal interpretation is unstable and out of step with human judgments
作者: Abhishek Purushothama, Junghyun Min, Brandon Waldon, Nathan Schneider
分类: cs.CL
发布日期: 2025-10-29
💡 一句话要点
LLM法律解释不稳定且与人类判断不一致,不适用于法律实践
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 法律解释 人工智能 自然语言处理 法律AI
📋 核心要点
- 现有研究建议将LLM用于法律解释,但其稳定性和可靠性尚未得到充分验证。
- 该研究通过实验评估LLM在法律解释中的表现,并与人类判断进行对比分析。
- 实验结果表明,LLM的法律解释不稳定,且与人类判断的相关性较弱,不宜直接应用于法律实践。
📝 摘要(中文)
在美国司法系统中,法律解释通常涉及评估法律文本如何应用于法律纠纷的事实,而这种理解应基于语言的“普通”使用者。最近的研究表明,法律从业者可以将大型语言模型(LLM)添加到他们的解释工具包中。本文针对法律学者和联邦法官最近实践的LLM解释提出了经验性论证。我们的英语调查表明,模型不能提供稳定的解释性判断:改变问题形式可能导致模型得出截然不同的结论。此外,模型与人类判断的相关性较弱到中等,并且模型和问题变体之间的差异很大,这表明对生成式AI产生的结论给予过多信任是危险的。
🔬 方法详解
问题定义:当前法律领域尝试使用LLM进行法律文本的解释和案件判决预测。然而,现有方法缺乏对LLM稳定性和可靠性的充分评估,即LLM是否能对相同案件给出一致的判断,以及其判断是否与人类专家一致。现有方法的一个主要痛点是,直接将LLM应用于法律解释,而没有充分考虑其潜在的偏差和不稳定性。
核心思路:本文的核心思路是通过系统性的实验,评估LLM在不同问题形式下的法律解释一致性,并将其判断与人类专家的判断进行对比。通过分析LLM在不同情况下的表现,揭示其在法律解释方面的局限性,从而论证LLM目前不适合直接应用于法律实践。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选取法律案例和相关法律文本;2) 设计多种问题形式,以测试LLM对同一案例的不同解读;3) 使用不同的LLM模型进行实验,并记录其输出结果;4) 收集人类专家的判断作为基准;5) 对比分析LLM的输出结果与人类专家的判断,评估LLM的稳定性和可靠性。
关键创新:该研究的关键创新在于,它首次系统性地评估了LLM在法律解释方面的稳定性和可靠性,并揭示了LLM在这一领域的局限性。与现有研究不同,该研究不仅关注LLM的准确率,更关注其一致性和与人类判断的相关性。
关键设计:研究中,问题形式的设计是关键。通过改变问题的措辞、结构和上下文,测试LLM对同一案例的不同解读。例如,可以采用开放式问题、选择题、是非题等多种形式。此外,研究还使用了多种LLM模型,以评估不同模型在法律解释方面的表现。具体参数设置和损失函数等细节未在摘要中提及,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM的法律解释不稳定,改变问题形式可能导致模型得出截然不同的结论。模型与人类判断的相关性较弱到中等,且模型和问题变体之间的差异很大。这些结果表明,目前不应过度依赖LLM进行法律解释。
🎯 应用场景
该研究结果对法律人工智能领域具有重要意义,提醒法律从业者在使用LLM进行法律解释时应保持谨慎。未来的研究可以集中在提高LLM的稳定性和可靠性,例如通过引入法律知识库、优化模型训练方法等。该研究也为其他领域的AI应用提供了借鉴,强调了对AI系统进行全面评估的重要性。
📄 摘要(原文)
Legal interpretation frequently involves assessing how a legal text, as understood by an 'ordinary' speaker of the language, applies to the set of facts characterizing a legal dispute in the U.S. judicial system. Recent scholarship has proposed that legal practitioners add large language models (LLMs) to their interpretive toolkit. This work offers an empirical argument against LLM interpretation as recently practiced by legal scholars and federal judges. Our investigation in English shows that models do not provide stable interpretive judgments: varying the question format can lead the model to wildly different conclusions. Moreover, the models show weak to moderate correlation with human judgment, with large variance across model and question variant, suggesting that it is dangerous to give much credence to the conclusions produced by generative AI.