CaseGen: A Benchmark for Multi-Stage Legal Case Documents Generation

📄 arXiv: 2502.17943v1 📥 PDF

作者: Haitao Li, Jiaying Ye, Yiran Hu, Jia Chen, Qingyao Ai, Yueyue Wu, Junjie Chen, Yifan Chen, Cheng Luo, Quan Zhou, Yiqun Liu

分类: cs.CL

发布日期: 2025-02-25

备注: 18 pages

🔗 代码/项目: GITHUB


💡 一句话要点

CaseGen:构建中文法律领域多阶段法律文书生成基准,促进法律AI发展

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 法律文书生成 大型语言模型 中文法律领域 多阶段生成 基准数据集

📋 核心要点

  1. 现有法律文书生成基准难以捕捉真实法律场景的复杂性,限制了LLM在法律领域的应用。
  2. CaseGen基准基于真实案例,涵盖法律文书的关键部分,支持多阶段生成任务,更贴近实际需求。
  3. 论文设计了LLM-as-a-judge评估框架,并评估了通用和法律专用LLM,为后续研究提供参考。

📝 摘要(中文)

法律文书在司法程序中至关重要。随着案件数量的持续增长,人工起草法律文书面临的压力和挑战日益增加。大型语言模型(LLMs)的发展为自动化文书生成提供了一个有前景的解决方案。然而,现有的基准未能充分捕捉真实场景中起草法律文书的复杂性。为了解决这一差距,我们推出了CaseGen,这是一个用于中文法律领域多阶段法律文书生成的基准。CaseGen基于法律专家标注的500个真实案例样本,涵盖七个关键案件部分。它支持四个关键任务:起草辩护陈述、撰写审判事实、撰写法律推理和生成判决结果。据我们所知,CaseGen是第一个旨在评估LLMs在法律文书生成背景下的基准。为了确保准确和全面的评估,我们设计了LLM-as-a-judge评估框架,并通过人工标注验证了其有效性。我们评估了几种广泛使用的通用领域LLMs和法律专用LLMs,突出了它们在案例文档生成方面的局限性,并指出了潜在的改进领域。这项工作标志着朝着更有效的法律文书自动化起草框架迈出了一步,为人工智能在法律领域的可靠应用铺平了道路。数据集和代码可在https://github.com/CSHaitao/CaseGen公开获取。

🔬 方法详解

问题定义:现有法律文书生成基准的不足在于,它们通常无法充分捕捉真实法律场景的复杂性。例如,它们可能只关注单个文档的生成,而忽略了法律文书生成的多阶段性,或者它们可能缺乏足够真实和全面的数据。这导致了LLM在实际法律应用中的性能不佳,难以满足法律专业人士的需求。

核心思路:CaseGen的核心思路是构建一个更贴近真实法律场景的基准,以更全面、准确地评估LLM在法律文书生成方面的能力。通过收集真实案例数据,并由法律专家进行标注,CaseGen能够提供更可靠的评估结果。同时,CaseGen支持多阶段生成任务,模拟了法律文书生成的实际流程。

技术框架:CaseGen基准包含以下几个主要组成部分:1) 真实案例数据集:包含500个真实案例样本,涵盖七个关键案件部分。2) 多阶段生成任务:支持起草辩护陈述、撰写审判事实、撰写法律推理和生成判决结果四个关键任务。3) LLM-as-a-judge评估框架:设计了一种基于LLM的自动评估方法,用于评估生成文书的质量。该框架通过人工标注进行验证,确保评估的准确性。

关键创新:CaseGen的关键创新在于:1) 它是第一个专门为中文法律领域多阶段法律文书生成设计的基准。2) 它基于真实案例数据,并由法律专家进行标注,保证了数据的质量和可靠性。3) 它提出了LLM-as-a-judge评估框架,为自动评估法律文书生成质量提供了一种新的方法。

关键设计:CaseGen的数据集包含500个真实案例,每个案例都包含七个关键部分,例如案件事实、辩护意见、法律推理和判决结果。这些数据由法律专家进行标注,以确保数据的准确性和一致性。LLM-as-a-judge评估框架使用预训练的LLM作为评估器,通过比较生成文书和参考文书,来评估生成文书的质量。评估指标包括准确性、完整性和流畅性等。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

CaseGen基准的评估结果表明,现有的通用领域LLM和法律专用LLM在法律文书生成方面仍存在局限性。例如,在生成法律推理时,LLM往往难以准确把握法律原则和逻辑关系。通过CaseGen基准的评估,可以发现LLM在法律领域的不足之处,并为后续研究提供改进方向。实验结果表明,LLM-as-a-judge评估框架与人工评估结果具有较高的一致性,验证了其有效性。

🎯 应用场景

CaseGen基准的潜在应用领域包括:自动化法律文书起草、智能法律咨询、法律教育和研究等。通过利用CaseGen基准,可以开发出更智能、更高效的法律AI系统,从而减轻法律专业人士的工作负担,提高司法效率,并促进法律知识的普及。未来,CaseGen可以扩展到其他法律领域,并支持更多语言,以更好地服务于全球法律界。

📄 摘要(原文)

Legal case documents play a critical role in judicial proceedings. As the number of cases continues to rise, the reliance on manual drafting of legal case documents is facing increasing pressure and challenges. The development of large language models (LLMs) offers a promising solution for automating document generation. However, existing benchmarks fail to fully capture the complexities involved in drafting legal case documents in real-world scenarios. To address this gap, we introduce CaseGen, the benchmark for multi-stage legal case documents generation in the Chinese legal domain. CaseGen is based on 500 real case samples annotated by legal experts and covers seven essential case sections. It supports four key tasks: drafting defense statements, writing trial facts, composing legal reasoning, and generating judgment results. To the best of our knowledge, CaseGen is the first benchmark designed to evaluate LLMs in the context of legal case document generation. To ensure an accurate and comprehensive evaluation, we design the LLM-as-a-judge evaluation framework and validate its effectiveness through human annotations. We evaluate several widely used general-domain LLMs and legal-specific LLMs, highlighting their limitations in case document generation and pinpointing areas for potential improvement. This work marks a step toward a more effective framework for automating legal case documents drafting, paving the way for the reliable application of AI in the legal field. The dataset and code are publicly available at https://github.com/CSHaitao/CaseGen.