Beyond Guilt: Legal Judgment Prediction with Trichotomous Reasoning

📄 arXiv: 2412.14588v2 📥 PDF

作者: Kepu Zhang, Haoyue Yang, Xu Tang, Weijie Yu, Jun Xu

分类: cs.CL

发布日期: 2024-12-19 (更新: 2025-02-22)


💡 一句话要点

提出LJPIV基准数据集,增强法律LLM的三分式推理能力,提升无罪判决预测准确性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 法律判决预测 大语言模型 三分式推理 基准数据集 无罪判决

📋 核心要点

  1. 现有法律LLM缺乏区分有罪与无罪判决的三分式推理能力,限制了其在法律实践中的应用。
  2. 论文提出LJPIV基准数据集,通过LLM增强和人工验证,扩展现有数据集,引入无罪判决案例。
  3. 实验表明,现有法律LLM在LJPIV上表现不佳,论文提出的策略能显著提升判决预测准确性。

📝 摘要(中文)

在法律实践中,法官采用刑法的三分式教义学,依次评估犯罪构成要件、违法性和可责性,以确定个人行为是否构成犯罪。虽然当前的法律大语言模型(LLM)在判决预测方面显示出良好的准确性,但由于缺乏适当的基准数据集,它们缺乏三分式推理能力,无法预测无罪结果。因此,每个输入都会被自动分配一项指控,限制了它们在法律环境中的实际效用。为了弥合这一差距,我们引入了LJPIV,这是第一个用于包含无罪判决的法律判决预测的基准数据集。遵循三分式教义学,我们通过基于LLM的增强和人工验证扩展了三个广泛使用的法律数据集。我们使用最先进的法律LLM以及将三分式推理集成到零样本提示和微调中的新策略进行的实验表明:(1)当前的法律LLM仍有很大的改进空间,即使是最好的模型在LJPIV上的F1分数也低于0.3;(2)我们的策略显著提高了领域内和跨领域的判决预测准确性,特别是对于导致无罪判决的案件。

🔬 方法详解

问题定义:现有法律大语言模型(LLM)在法律判决预测任务中,无法有效处理无罪判决的情况。这是因为现有的数据集和模型训练方法主要关注有罪判决的预测,缺乏对犯罪构成要件、违法性和可责性这三个关键要素的综合推理能力,导致模型倾向于对所有输入都给出有罪的预测。这种局限性严重影响了法律LLM在实际法律场景中的应用价值。

核心思路:论文的核心思路是构建一个包含无罪判决案例的基准数据集,并设计相应的模型训练策略,以增强法律LLM的三分式推理能力。通过引入无罪判决案例,模型能够学习区分不同情况下犯罪构成要件是否成立,从而做出更准确的判决预测。同时,论文还探索了将三分式推理融入到零样本提示和微调中的方法,以进一步提升模型的性能。

技术框架:论文的技术框架主要包括数据集构建和模型训练两个部分。数据集构建方面,作者提出了LJPIV基准数据集,该数据集通过LLM自动生成和人工验证的方式,在现有法律数据集的基础上增加了无罪判决的案例。模型训练方面,作者探索了两种策略:一是将三分式推理融入到零样本提示中,通过设计特定的提示语引导模型进行推理;二是将三分式推理融入到微调过程中,通过构建特定的损失函数或训练目标,使模型能够更好地学习三分式推理的能力。

关键创新:论文的关键创新在于提出了LJPIV基准数据集,这是第一个专门用于评估法律LLM在无罪判决预测方面性能的数据集。此外,论文还探索了将三分式推理融入到零样本提示和微调中的方法,为提升法律LLM的判决预测准确性提供了新的思路。

关键设计:在数据集构建方面,作者使用了LLM进行数据增强,并进行了人工验证,以保证数据的质量。在模型训练方面,作者尝试了不同的提示语设计和损失函数设计,以优化模型的性能。具体的参数设置和网络结构取决于所使用的法律LLM,论文中使用了多种state-of-the-art的法律LLM进行实验。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有法律LLM在LJPIV数据集上的F1分数低于0.3,表明其在无罪判决预测方面存在显著不足。论文提出的策略能够显著提高领域内和跨领域的判决预测准确性,尤其是在无罪判决案例中,提升幅度明显。这表明该研究在提升法律LLM的三分式推理能力方面取得了重要进展。

🎯 应用场景

该研究成果可应用于智能法律咨询、辅助判决、法律文书生成等领域。通过提升法律LLM对无罪判决的预测能力,可以减少冤假错案的发生,提高司法公正性。未来,该研究还可以扩展到其他法律领域,例如民事诉讼和行政诉讼。

📄 摘要(原文)

In legal practice, judges apply the trichotomous dogmatics of criminal law, sequentially assessing the elements of the offense, unlawfulness, and culpability to determine whether an individual's conduct constitutes a crime. Although current legal large language models (LLMs) show promising accuracy in judgment prediction, they lack trichotomous reasoning capabilities due to the absence of an appropriate benchmark dataset, preventing them from predicting innocent outcomes. As a result, every input is automatically assigned a charge, limiting their practical utility in legal contexts. To bridge this gap, we introduce LJPIV, the first benchmark dataset for Legal Judgment Prediction with Innocent Verdicts. Adhering to the trichotomous dogmatics, we extend three widely-used legal datasets through LLM-based augmentation and manual verification. Our experiments with state-of-the-art legal LLMs and novel strategies that integrate trichotomous reasoning into zero-shot prompting and fine-tuning reveal: (1) current legal LLMs have significant room for improvement, with even the best models achieving an F1 score of less than 0.3 on LJPIV; and (2) our strategies notably enhance both in-domain and cross-domain judgment prediction accuracy, especially for cases resulting in an innocent verdict.