LLMs for Legal Subsumption in German Employment Contracts

📄 arXiv: 2507.01734v1 📥 PDF

作者: Oliver Wardas, Florian Matthes

分类: cs.CL

发布日期: 2025-07-02

备注: PrePrint - ICAIL25, Chicago


💡 一句话要点

利用LLM和上下文学习评估德国雇佣合同条款的合法性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 法律文本分析 合同审查 上下文学习 法律科技

📋 核心要点

  1. 现有法律领域的NLP方法缺乏可解释性和可信度,难以适应动态的法律环境。
  2. 利用大型语言模型和上下文学习,结合法律专家知识,评估合同条款的合法性。
  3. 实验表明,考试指南能显著提升无效条款的召回率,加权F1值达到80%。

📝 摘要(中文)

法律工作以其文本密集和资源密集为特征,为自然语言处理研究提出了独特的挑战和机遇。虽然数据驱动的方法已经推动了该领域的发展,但它们缺乏可解释性和可信度,限制了其在动态法律环境中的适用性。为了解决这些问题,我们与法律专家合作,扩展了一个现有的数据集,并探索了使用大型语言模型(LLM)和上下文学习来评估德国雇佣合同中条款的合法性。我们的工作评估了不同的LLM在三种法律上下文变体下将条款分类为“有效”、“不公平”或“无效”的能力:无法律上下文、法律和法院判决的全文来源以及这些的提炼版本(称为考试指南)。结果表明,全文来源适度提高了性能,而考试指南显着提高了无效条款的召回率和加权F1分数,达到80%。尽管取得了这些进展,但LLM在使用全文来源时的性能仍然远低于人类律师。我们贡献了一个扩展的数据集,包括考试指南、引用的法律来源和相应的注释,以及我们的代码和所有日志文件。我们的发现强调了LLM在协助律师进行合同合法性审查方面的潜力,同时也强调了所提出方法的局限性。

🔬 方法详解

问题定义:论文旨在解决德国雇佣合同中条款合法性自动评估的问题。现有方法,特别是数据驱动的方法,在法律领域面临可解释性和信任度不足的挑战,难以适应法律环境的快速变化。律师需要花费大量时间审查合同条款,判断其是否符合法律规定。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大语言理解和生成能力,结合上下文学习(In-Context Learning)的方式,让LLM能够根据提供的法律上下文(例如法律条文、判例等)来判断合同条款的合法性。通过提供不同类型的法律上下文,研究人员旨在探索哪种上下文形式最有利于LLM进行准确的判断。

技术框架:整体框架包括以下几个主要步骤:1) 数据集构建:扩展现有的合同条款数据集,并添加了法律上下文信息,包括法律全文和考试指南。2) 模型选择:选择多种LLM进行实验,例如GPT-3等。3) 上下文学习:设计不同的上下文输入方式,包括无上下文、法律全文上下文和考试指南上下文。4) 评估:使用准确率、召回率、F1值等指标评估LLM在不同上下文下的性能。

关键创新:论文的关键创新在于探索了不同类型的法律上下文对LLM性能的影响,特别是引入了“考试指南”作为一种精炼的法律知识表示形式。与直接使用法律全文相比,考试指南更加简洁明了,更容易被LLM理解和利用。

关键设计:论文的关键设计包括:1) 数据集的构建,特别是考试指南的编写,需要法律专家的参与。2) 上下文学习的Prompt设计,如何将法律上下文有效地融入到Prompt中,影响着LLM的判断结果。3) 评估指标的选择,除了常用的准确率外,还关注了召回率和F1值,以更全面地评估LLM的性能。

📊 实验亮点

实验结果表明,提供法律全文上下文可以适度提升LLM的性能,而使用考试指南作为上下文能够显著提高无效条款的召回率和加权F1分数,达到80%。这表明精炼的领域知识表示形式更有利于LLM进行准确的判断。然而,即使使用了考试指南,LLM的性能仍然低于人类律师,表明LLM在法律推理方面仍有提升空间。

🎯 应用场景

该研究成果可应用于法律科技领域,辅助律师进行合同审查,提高工作效率,降低法律风险。未来,可以将该方法扩展到其他类型的法律文件,例如法规、判例等,构建智能法律助手,为法律从业者提供更全面的支持。此外,该研究也为LLM在专业领域的应用提供了借鉴,展示了如何通过结合领域知识来提升LLM的性能。

📄 摘要(原文)

Legal work, characterized by its text-heavy and resource-intensive nature, presents unique challenges and opportunities for NLP research. While data-driven approaches have advanced the field, their lack of interpretability and trustworthiness limits their applicability in dynamic legal environments. To address these issues, we collaborated with legal experts to extend an existing dataset and explored the use of Large Language Models (LLMs) and in-context learning to evaluate the legality of clauses in German employment contracts. Our work evaluates the ability of different LLMs to classify clauses as "valid," "unfair," or "void" under three legal context variants: no legal context, full-text sources of laws and court rulings, and distilled versions of these (referred to as examination guidelines). Results show that full-text sources moderately improve performance, while examination guidelines significantly enhance recall for void clauses and weighted F1-Score, reaching 80\%. Despite these advancements, LLMs' performance when using full-text sources remains substantially below that of human lawyers. We contribute an extended dataset, including examination guidelines, referenced legal sources, and corresponding annotations, alongside our code and all log files. Our findings highlight the potential of LLMs to assist lawyers in contract legality review while also underscoring the limitations of the methods presented.