What Are the Facts? Automated Extraction of Court-Established Facts from Criminal-Court Opinions

📄 arXiv: 2511.05320v1 📥 PDF

作者: Klára Bendová, Tomáš Knap, Jan Černý, Vojtěch Pour, Jaromir Savelka, Ivana Kvapilíková, Jakub Drápal

分类: cs.CL, cs.AI

发布日期: 2025-11-07

备注: Paper accepted to the proceedings of ASAIL 2025 Workshop under ICAIL conference for publication. Paper contains 6 pages (references included) and 2 appendices. It contains 8 tables, no figures


💡 一句话要点

提出基于正则表达式和LLM的混合方法,自动提取刑事判决书中的案件事实描述。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 案件事实提取 刑事判决书 正则表达式 大型语言模型 自然语言处理

📋 核心要点

  1. 刑事判决书包含大量案件事实信息,但人工提取成本高,现有方法提取精度不足。
  2. 利用正则表达式和大型语言模型,设计混合提取方案,提升案件事实描述的自动化提取能力。
  3. 实验表明,该方法显著优于传统方法,与人工标注结果高度吻合,准确率达到92%以上。

📝 摘要(中文)

刑事司法管理数据仅包含关于已犯罪行的有限信息。然而,在欧洲大陆法院的判决中存在一个未被利用的丰富信息来源:对罪犯被判有罪的犯罪行为的描述。本文研究了从斯洛伐克公开的法院判决中提取这些描述的可行性。我们使用了两种不同的检索方法:正则表达式和大型语言模型(LLM)。我们的基线方法是采用正则表达式来识别描述前后出现的典型词语。改进的正则表达式方法进一步关注“sparing”及其规范化(在单个字母之间插入空格),这对于描述的划分非常典型。LLM方法涉及提示Gemini Flash 2.0模型使用预定义的指令来提取描述。虽然基线方法仅在40.5%的判决中识别出描述,但两种方法都显著优于它,改进的正则表达式方法达到97%,LLM达到98.75%,两者结合达到99.5%。法律系学生的评估表明,与基线方法(34.5%)相比,这两种改进的方法在约90%的情况下与人工标注相匹配。LLM在91.75%的实例中完全匹配人工标注的描述,而改进的正则表达式与LLM的组合达到了92%。

🔬 方法详解

问题定义:论文旨在解决从刑事判决书中自动提取案件事实描述的问题。现有方法,如简单的正则表达式匹配,准确率较低,无法充分利用判决书中的信息。人工提取成本高昂,效率低下。

核心思路:论文的核心思路是结合正则表达式和大型语言模型(LLM)的优势。正则表达式用于快速定位和初步提取,LLM用于更精确的理解和提取,并处理正则表达式难以处理的复杂情况。通过混合使用这两种方法,可以提高提取的准确性和效率。

技术框架:该方法包含以下几个主要阶段:1) 使用简单的正则表达式作为基线方法,识别描述前后出现的典型词语。2) 开发改进的正则表达式方法,重点关注“sparing”及其规范化,以更准确地划分描述。3) 使用LLM(Gemini Flash 2.0)进行提取,通过预定义的指令提示模型提取描述。4) 将改进的正则表达式方法和LLM方法的结果进行组合,进一步提高提取的准确率。

关键创新:该方法最重要的技术创新点在于结合了正则表达式和LLM。正则表达式的优势在于速度和效率,而LLM的优势在于理解和推理能力。通过将两者结合,可以克服各自的局限性,实现更准确和鲁棒的案件事实描述提取。与现有方法相比,该方法能够更好地处理判决书中的复杂语言和结构。

关键设计:在正则表达式方面,关键设计在于对“sparing”现象的识别和规范化,这在斯洛伐克法院的判决书中很常见。在LLM方面,关键设计在于设计合适的提示语,引导模型提取所需的信息。论文没有提供关于损失函数或网络结构的具体细节,因为使用的是现成的LLM模型。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,改进的正则表达式方法和LLM方法都显著优于基线方法。改进的正则表达式方法达到了97%的准确率,LLM方法达到了98.75%的准确率,两者结合达到了99.5%的准确率。法律系学生的评估表明,这两种改进的方法在约90%的情况下与人工标注相匹配,LLM在91.75%的实例中完全匹配人工标注的描述,而改进的正则表达式与LLM的组合达到了92%。

🎯 应用场景

该研究成果可应用于刑事司法领域,例如构建犯罪知识图谱、分析犯罪模式、辅助法律研究等。通过自动提取案件事实描述,可以大大提高刑事司法数据的利用率,为执法部门和研究人员提供更有价值的信息。未来,该技术可以扩展到其他类型的法律文档,例如民事判决书和行政裁决书。

📄 摘要(原文)

Criminal justice administrative data contain only a limited amount of information about the committed offense. However, there is an unused source of extensive information in continental European courts' decisions: descriptions of criminal behaviors in verdicts by which offenders are found guilty. In this paper, we study the feasibility of extracting these descriptions from publicly available court decisions from Slovakia. We use two different approaches for retrieval: regular expressions and large language models (LLMs). Our baseline was a simple method employing regular expressions to identify typical words occurring before and after the description. The advanced regular expression approach further focused on "sparing" and its normalization (insertion of spaces between individual letters), typical for delineating the description. The LLM approach involved prompting the Gemini Flash 2.0 model to extract the descriptions using predefined instructions. Although the baseline identified descriptions in only 40.5% of verdicts, both methods significantly outperformed it, achieving 97% with advanced regular expressions and 98.75% with LLMs, and 99.5% when combined. Evaluation by law students showed that both advanced methods matched human annotations in about 90% of cases, compared to just 34.5% for the baseline. LLMs fully matched human-labeled descriptions in 91.75% of instances, and a combination of advanced regular expressions with LLMs reached 92%.