Identifying Legal Holdings with LLMs: A Systematic Study of Performance, Scale, and Memorization

📄 arXiv: 2505.02172v3 📥 PDF

作者: Chuck Arvin

分类: cs.CL

发布日期: 2025-05-04 (更新: 2025-05-24)

备注: Presented as a short paper at International Conference on Artificial Intelligence and Law 2025 (Chicago, IL)


💡 一句话要点

利用大型语言模型识别法律判决要点:性能、规模与记忆的系统性研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 法律判决要点识别 CaseHOLD数据集 引文匿名化 法律人工智能

📋 核心要点

  1. 现有法律判决要点识别方法在处理复杂案例和泛化能力方面存在不足,难以满足实际应用需求。
  2. 本文探索了直接应用大规模语言模型解决法律判决要点识别问题,无需复杂的微调或提示工程。
  3. 实验结果表明,大型语言模型在CaseHOLD数据集上表现出色,即使在引文匿名化后仍保持较高准确率。

📝 摘要(中文)

本文旨在评估大型语言模型(LLMs)在法律基准数据集上的表现,特别是CaseHOLD数据集,该数据集用于识别案例判决要点。研究测试了参数量从3B到90B+的多种LLMs,结果表明模型性能随规模增大而提升。GPT4o和AmazonNovaPro等模型取得了具有竞争力的宏平均F1分数,分别为0.744和0.720,与已发表的最佳结果相当,且无需复杂的模型训练、微调或少样本提示。为了验证模型性能并非源于对训练数据中判决意见的记忆,研究开发了一种新颖的引文匿名化测试,在保留语义信息的同时,确保案例名称和引文是虚构的。在此条件下,模型依然保持了较好的性能(宏平均F1为0.728),表明模型并非死记硬背。这些发现揭示了LLMs在法律任务中的潜力和局限性,对自动化法律分析和法律基准的开发与评估具有重要意义。

🔬 方法详解

问题定义:本文旨在解决法律领域中自动识别案例判决要点的问题。现有方法可能依赖于复杂的规则或需要大量标注数据进行训练,泛化能力较弱,难以适应不同类型的法律文本。此外,现有方法容易受到模型记忆的影响,无法真正理解法律文本的含义。

核心思路:本文的核心思路是直接利用预训练的大型语言模型(LLMs)的强大语义理解能力,无需针对特定任务进行复杂的微调或特征工程。通过评估不同规模的LLMs在CaseHOLD数据集上的表现,探索模型规模与性能之间的关系,并设计引文匿名化测试来验证模型是否真正理解法律文本。

技术框架:本文采用了一种直接评估的方法,即直接将法律文本输入到预训练的LLMs中,然后让模型预测判决要点。主要分为以下几个阶段:1)数据准备:使用CaseHOLD数据集,并进行引文匿名化处理。2)模型选择:选择不同规模的LLMs进行评估,包括GPT4o和AmazonNovaPro等。3)性能评估:使用宏平均F1分数等指标评估模型在原始数据和匿名化数据上的表现。

关键创新:本文最重要的技术创新点是提出了引文匿名化测试方法,用于验证模型是否真正理解法律文本的含义,而不是简单地记忆训练数据。该方法通过替换案例名称和引文,确保模型无法通过记忆来完成任务,从而更准确地评估模型的泛化能力。

关键设计:本文的关键设计包括:1)选择CaseHOLD数据集作为评估基准,该数据集包含大量的法律案例和判决要点。2)使用宏平均F1分数作为评估指标,该指标能够综合考虑模型的准确率和召回率。3)设计引文匿名化测试,通过替换案例名称和引文来验证模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,大型语言模型在CaseHOLD数据集上表现出色,GPT4o和AmazonNovaPro的宏平均F1分数分别达到0.744和0.720,与已发表的最佳结果相当。更重要的是,在引文匿名化测试中,模型依然保持了较高的性能(宏平均F1为0.728),表明模型并非死记硬背,而是具备一定的法律文本理解能力。

🎯 应用场景

该研究成果可应用于自动化法律分析、法律信息检索、智能法律咨询等领域。通过自动识别判决要点,可以帮助律师和研究人员快速了解案例的核心内容,提高工作效率。此外,该研究还可以促进法律知识图谱的构建和法律人工智能的发展,为法律行业的智能化转型提供技术支持。

📄 摘要(原文)

As large language models (LLMs) continue to advance in capabilities, it is essential to assess how they perform on established benchmarks. In this study, we present a suite of experiments to assess the performance of modern LLMs (ranging from 3B to 90B+ parameters) on CaseHOLD, a legal benchmark dataset for identifying case holdings. Our experiments demonstrate scaling effects - performance on this task improves with model size, with more capable models like GPT4o and AmazonNovaPro achieving macro F1 scores of 0.744 and 0.720 respectively. These scores are competitive with the best published results on this dataset, and do not require any technically sophisticated model training, fine-tuning or few-shot prompting. To ensure that these strong results are not due to memorization of judicial opinions contained in the training data, we develop and utilize a novel citation anonymization test that preserves semantic meaning while ensuring case names and citations are fictitious. Models maintain strong performance under these conditions (macro F1 of 0.728), suggesting the performance is not due to rote memorization. These findings demonstrate both the promise and current limitations of LLMs for legal tasks with important implications for the development and measurement of automated legal analytics and legal benchmarks.