PILOT-Bench: A Benchmark for Legal Reasoning in the Patent Domain with IRAC-Aligned Classification Tasks

📄 arXiv: 2601.04758v1 📥 PDF

作者: Yehoon Jang, Chaewon Lee, Hyun-seok Min, Sungchul Choi

分类: cs.CL, cs.AI

发布日期: 2026-01-08

备注: Accepted at the NLLP Workshop at EMNLP 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出PILOT-Bench,用于评估LLM在专利领域法律推理能力的基准测试。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 法律推理 专利领域 大型语言模型 基准测试 IRAC框架

📋 核心要点

  1. 现有方法缺乏系统评估LLM在专利领域进行结构化法律推理能力的手段。
  2. PILOT-Bench通过构建与IRAC对齐的分类任务,将PTAB裁决与专利数据对齐,从而评估LLM的法律推理能力。
  3. 实验表明,闭源LLM在问题类型任务上显著优于开源LLM,揭示了两者在推理能力上的差距。

📝 摘要(中文)

本文介绍PILOT-Bench,这是一个以美国专利商标局专利审判和上诉委员会(PTAB)为中心的基准测试,旨在系统性地评估大型语言模型(LLM)在专利领域进行结构化法律推理的能力。PTAB每年裁决数千件单方上诉,需要整合技术理解和法律推理。PILOT-Bench将PTAB的裁决与USPTO的专利数据在案例层面进行对齐,并形式化了三个与IRAC(Issue, Rule, Application, Conclusion)对齐的分类任务:问题类型、委员会权威和子决策。研究评估了一系列闭源(商业)和开源LLM,并从多个角度进行了分析,包括输入变化设置、模型家族和错误倾向。值得注意的是,在问题类型任务中,闭源模型的Micro-F1得分始终超过0.75,而最强的开源模型(Qwen-8B)的性能约为0.56,突显了推理能力方面的巨大差距。PILOT-Bench为系统评估专利领域的法律推理奠定了基础,并为通过数据集设计和模型对齐来改进LLM指明了未来的方向。所有数据、代码和基准测试资源均可在https://github.com/TeamLab/pilot-bench获取。

🔬 方法详解

问题定义:论文旨在解决缺乏系统性评估LLM在专利领域进行法律推理能力的问题。现有方法无法有效衡量LLM在此领域的表现,阻碍了LLM在该领域的应用。

核心思路:核心思路是构建一个以PTAB裁决为中心的基准测试,该基准测试包含与IRAC框架对齐的分类任务。通过这些任务,可以系统地评估LLM在专利法律推理方面的能力。IRAC框架能够将复杂的法律推理过程分解为更易于评估的组成部分。

技术框架:PILOT-Bench的整体框架包括以下几个关键步骤:1) 数据收集与对齐:收集PTAB的裁决和USPTO的专利数据,并在案例层面进行对齐。2) 任务形式化:将法律推理过程形式化为三个与IRAC对齐的分类任务:问题类型、委员会权威和子决策。3) 模型评估:使用各种闭源和开源LLM对这些任务进行评估。4) 结果分析:从多个角度分析实验结果,包括输入变化设置、模型家族和错误倾向。

关键创新:PILOT-Bench的主要创新在于它是第一个以PTAB为中心,并与IRAC框架对齐的专利领域法律推理基准测试。它提供了一种系统的方法来评估LLM在该领域的推理能力,并为未来的研究提供了基础。

关键设计:关键设计包括:1) IRAC对齐的分类任务:问题类型、委员会权威和子决策。这些任务旨在捕捉法律推理的不同方面。2) 多种输入变化设置:通过改变输入的形式,评估模型对不同类型信息的敏感性。3) 错误倾向分析:分析模型的错误类型,以了解其推理能力的局限性。

📊 实验亮点

实验结果表明,在问题类型任务中,闭源模型(如商业LLM)的Micro-F1得分始终超过0.75,而最强的开源模型(Qwen-8B)的性能约为0.56。这突显了闭源模型和开源模型在专利法律推理能力方面的显著差距,表明闭源模型在该领域具有更强的竞争力。

🎯 应用场景

PILOT-Bench可用于评估和改进LLM在专利领域的应用,例如辅助专利律师进行案例分析、提高专利审查效率、以及为法律从业者提供更智能的决策支持。该基准测试有助于推动LLM在法律领域的更广泛应用,并促进法律人工智能的发展。

📄 摘要(原文)

The Patent Trial and Appeal Board (PTAB) of the USPTO adjudicates thousands of ex parte appeals each year, requiring the integration of technical understanding and legal reasoning. While large language models (LLMs) are increasingly applied in patent and legal practice, their use has remained limited to lightweight tasks, with no established means of systematically evaluating their capacity for structured legal reasoning in the patent domain. In this work, we introduce PILOT-Bench, the first PTAB-centric benchmark that aligns PTAB decisions with USPTO patent data at the case-level and formalizes three IRAC-aligned classification tasks: Issue Type, Board Authorities, and Subdecision. We evaluate a diverse set of closed-source (commercial) and open-source LLMs and conduct analyses across multiple perspectives, including input-variation settings, model families, and error tendencies. Notably, on the Issue Type task, closed-source models consistently exceed 0.75 in Micro-F1 score, whereas the strongest open-source model (Qwen-8B) achieves performance around 0.56, highlighting a substantial gap in reasoning capabilities. PILOT-Bench establishes a foundation for the systematic evaluation of patent-domain legal reasoning and points toward future directions for improving LLMs through dataset design and model alignment. All data, code, and benchmark resources are available at https://github.com/TeamLab/pilot-bench.