LAMUS: A Large-Scale Corpus for Legal Argument Mining from U.S. Caselaw using LLMs
作者: Serene Wang, Lavanya Pobbathi, Haihua Chen
分类: cs.CL
发布日期: 2026-03-09
🔗 代码/项目: GITHUB
💡 一句话要点
LAMUS:利用LLM构建美国判例法大规模法律论证挖掘语料库
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 法律论证挖掘 大型语言模型 判例法 自然语言处理 数据集构建 思维链提示 法律人工智能
📋 核心要点
- 现有法律论证挖掘缺乏大规模、高质量的美国判例法标注数据集,尤其是在州一级数据上。
- LAMUS通过结合LLM自动标注和人工参与质量改进的数据流程,构建大规模句子级法律论证挖掘语料库。
- 实验表明,思维链提示显著提升LLM性能,领域特定模型零样本表现更稳定,LLM辅助验证可有效纠正标注错误。
📝 摘要(中文)
法律论证挖掘旨在识别和分类司法推理的功能组成部分,例如事实、问题、规则、分析和结论。该领域进展受限于缺乏针对美国判例法的大规模、高质量标注数据集,尤其是在州一级。本文介绍了LAMUS,一个句子级别的法律论证挖掘语料库,由美国最高法院的判决和德克萨斯州刑事上诉意见构建而成。该数据集采用以数据为中心的流程创建,结合了大规模案例收集、基于LLM的自动标注和有针对性的人工参与质量改进。我们将法律论证挖掘定义为一个六类句子分类任务,并评估了在零样本、少样本和思维链提示策略下的多个通用和法律领域语言模型,并将LegalBERT作为监督基线。结果表明,思维链提示显著提高了LLM的性能,而特定领域的模型表现出更稳定的零样本行为。LLM辅助验证纠正了近20%的标注错误,提高了标签一致性。人工验证实现了0.85的Cohen Kappa系数,证实了标注质量。LAMUS为未来的法律NLP研究提供了可扩展的资源和经验见解。所有代码和数据集都可以在GitHub上访问,以实现可重复性。
🔬 方法详解
问题定义:法律论证挖掘旨在识别判决书中不同组成部分(如事实、问题、规则等)的功能。现有方法受限于缺乏大规模、高质量的标注数据集,尤其是在美国州一级判例法领域,这阻碍了相关研究的进展。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大能力,结合人工干预,高效地构建大规模的法律论证挖掘语料库。通过LLM进行初步自动标注,然后通过人工验证和修正,提高标注质量和一致性。
技术框架:LAMUS的构建流程主要包含以下几个阶段:1) 大规模案例收集:收集美国最高法院判决和德克萨斯州刑事上诉意见。2) LLM自动标注:使用LLM对句子进行六类分类(事实、问题、规则、分析、结论等)。3) 人工参与质量改进:人工验证和修正LLM的标注结果,提高标注质量。4) 评估:使用多种语言模型(通用和法律领域)在LAMUS上进行评估。
关键创新:该论文的关键创新在于利用LLM进行大规模的自动标注,并结合人工干预进行质量控制,从而高效地构建高质量的法律论证挖掘语料库。这种方法显著降低了人工标注的成本,并提高了标注效率。
关键设计:论文中使用了思维链(Chain-of-Thought)提示策略来提高LLM的标注性能。此外,通过LLM辅助验证,纠正了近20%的标注错误。人工验证阶段,Cohen's Kappa系数达到0.85,表明标注质量较高。数据集包含六个类别,分别是事实、问题、规则、分析和结论等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,思维链提示策略显著提高了LLM在法律论证挖掘任务中的性能。领域特定的模型(如LegalBERT)表现出更稳定的零样本行为。LLM辅助验证能够纠正近20%的标注错误,人工验证的Cohen's Kappa系数达到0.85,验证了数据集的标注质量。
🎯 应用场景
LAMUS语料库可用于训练和评估法律领域的自然语言处理模型,例如法律文本摘要、法律问题回答、法律推理等。该研究成果有助于提升法律人工智能系统的性能,并为法律从业者提供更高效的辅助工具,例如自动案例分析和法律文件起草。
📄 摘要(原文)
Legal argument mining aims to identify and classify the functional components of judicial reasoning, such as facts, issues, rules, analysis, and conclusions. Progress in this area is limited by the lack of large-scale, high-quality annotated datasets for U.S. caselaw, particularly at the state level. This paper introduces LAMUS, a sentence-level legal argument mining corpus constructed from U.S. Supreme Court decisions and Texas criminal appellate opinions. The dataset is created using a data-centric pipeline that combines large-scale case collection, LLM-based automatic annotation, and targeted human-in-the-loop quality refinement. We formulate legal argument mining as a six-class sentence classification task and evaluate multiple general-purpose and legal-domain language models under zero-shot, few-shot, and chain-of-thought prompting strategies, with LegalBERT as a supervised baseline. Results show that chain-of-thought prompting substantially improves LLM performance, while domain-specific models exhibit more stable zero-shot behavior. LLM-assisted verification corrects nearly 20% of annotation errors, improving label consistency. Human verification achieves Cohen's Kappa of 0.85, confirming annotation quality. LAMUS provides a scalable resource and empirical insights for future legal NLP research. All code and datasets can be accessed for reproducibility on GitHub at: https://github.com/LavanyaPobbathi/LAMUS/tree/main