MultiJustice: A Chinese Dataset for Multi-Party, Multi-Charge Legal Prediction

📄 arXiv: 2507.06909v1 📥 PDF

作者: Xiao Wang, Jiahuan Pei, Diancheng Shui, Zhiguang Han, Xin Sun, Dawei Zhu, Xiaoyu Shen

分类: cs.CL, cs.AI

发布日期: 2025-07-09

备注: Accepted by NLPCC 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出MultiJustice数据集,用于评估LLM在多被告、多罪名法律预测中的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 法律判决预测 多被告 多罪名 大型语言模型 数据集 法律人工智能

📋 核心要点

  1. 现有法律判决预测研究较少关注多被告、多罪名并存的复杂场景,缺乏针对性数据集。
  2. 构建MultiJustice数据集,包含四种不同被告和罪名组合的场景,用于评估LLM在此类场景下的表现。
  3. 实验表明,多被告多罪名场景对LLM构成最大挑战,不同模型性能下降幅度存在显著差异。

📝 摘要(中文)

法律判决预测为法律从业者和研究人员提供了一种引人注目的辅助方法。然而,一个研究问题仍未得到充分探索:在法律判决预测中,是否应该分别处理多个被告和罪名?为了解决这个问题,我们引入了一个新的数据集,即多人多罪名预测(MPMCP),并通过评估几种流行的法律大型语言模型(LLM)在四种实际法律判决场景中的表现来寻求答案:(S1)单被告单罪名,(S2)单被告多罪名,(S3)多被告单罪名,以及(S4)多被告多罪名。我们在两个法律判决预测任务(即罪名预测和刑期预测)上评估了该数据集。我们进行了广泛的实验,发现涉及多个被告和多个罪名的场景(S4)最具挑战性,其次是S2、S3和S1。影响因模型而异。例如,在S4与S1相比,InternLM2的F1分数降低了约4.5%,LogD提高了2.8%,而Lawformer的F1分数降低了约19.7%,LogD提高了19.0%。我们的数据集和代码可在https://github.com/lololo-xiao/MultiJustice-MPMCP 获得。

🔬 方法详解

问题定义:论文旨在解决法律判决预测(LJP)中,现有方法对多被告、多罪名复杂场景处理不足的问题。现有方法通常将多个被告和罪名视为独立事件,忽略了它们之间的相互影响,导致预测精度下降。缺乏专门针对此类场景的数据集,使得模型难以有效学习和泛化。

核心思路:论文的核心思路是构建一个专门针对多被告、多罪名场景的法律判决预测数据集(MultiJustice),并利用该数据集评估现有法律大语言模型(LLM)在此类场景下的表现。通过对比不同场景下的预测结果,分析LLM在处理复杂法律关系时的优势和不足。

技术框架:该研究的技术框架主要包括以下几个部分:1) 数据集构建:收集并标注包含不同被告和罪名组合的法律案例数据,构建MultiJustice数据集。该数据集包含四种场景:单被告单罪名、单被告多罪名、多被告单罪名、多被告多罪名。2) 模型评估:选择几种流行的法律大语言模型(LLM),如InternLM2和Lawformer,在MultiJustice数据集上进行评估。评估任务包括罪名预测和刑期预测。3) 性能分析:对比不同LLM在不同场景下的预测性能,分析其在处理多被告、多罪名复杂关系时的表现。

关键创新:该论文的关键创新在于:1) 提出了MultiJustice数据集,填补了法律判决预测领域在多被告、多罪名场景下的数据集空白。2) 系统性地评估了现有法律大语言模型在不同复杂程度的法律场景下的表现,揭示了它们在处理复杂法律关系时的优势和不足。

关键设计:数据集包含四种场景,旨在模拟真实法律实践中可能遇到的各种情况。评估指标包括F1分数和LogD,用于衡量模型在罪名预测和刑期预测任务上的性能。实验中对比了不同LLM在不同场景下的表现,并分析了其性能差异。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,多被告多罪名场景(S4)对LLM构成最大挑战。例如,与单被告单罪名场景(S1)相比,InternLM2在S4场景下的F1分数降低了约4.5%,LogD提高了2.8%,而Lawformer的F1分数降低了约19.7%,LogD提高了19.0%。这表明不同模型在处理复杂法律关系时的能力存在显著差异。

🎯 应用场景

该研究成果可应用于辅助法律从业人员进行案件分析和判决预测,提高法律工作的效率和准确性。MultiJustice数据集可作为评估和改进法律人工智能模型的重要基准。未来,可以进一步扩展该数据集,并开发更有效的模型来处理更复杂的法律场景。

📄 摘要(原文)

Legal judgment prediction offers a compelling method to aid legal practitioners and researchers. However, the research question remains relatively under-explored: Should multiple defendants and charges be treated separately in LJP? To address this, we introduce a new dataset namely multi-person multi-charge prediction (MPMCP), and seek the answer by evaluating the performance of several prevailing legal large language models (LLMs) on four practical legal judgment scenarios: (S1) single defendant with a single charge, (S2) single defendant with multiple charges, (S3) multiple defendants with a single charge, and (S4) multiple defendants with multiple charges. We evaluate the dataset across two LJP tasks, i.e., charge prediction and penalty term prediction. We have conducted extensive experiments and found that the scenario involving multiple defendants and multiple charges (S4) poses the greatest challenges, followed by S2, S3, and S1. The impact varies significantly depending on the model. For example, in S4 compared to S1, InternLM2 achieves approximately 4.5% lower F1-score and 2.8% higher LogD, while Lawformer demonstrates around 19.7% lower F1-score and 19.0% higher LogD. Our dataset and code are available at https://github.com/lololo-xiao/MultiJustice-MPMCP.