PILOT-Bench: A Benchmark for Legal Reasoning in the Patent Domain with IRAC-Aligned Classification Tasks

作者: Yehoon Jang, Chaewon Lee, Hyun-seok Min, Sungchul Choi

分类: cs.CL, cs.AI

发布日期: 2026-01-08

备注: Accepted at the NLLP Workshop at EMNLP 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出PILOT-Bench：一个专利领域法律推理的IRAC对齐分类基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 专利法律推理 大型语言模型 基准数据集 IRAC对齐 分类任务

📋 核心要点

现有大型语言模型在专利和法律领域的应用受限于轻量级任务，缺乏对结构化法律推理能力的系统评估。
PILOT-Bench通过将PTAB决策与USPTO专利数据对齐，并形式化IRAC对齐的分类任务，构建专利领域法律推理基准。
实验结果表明，闭源模型在问题类型任务上显著优于开源模型，揭示了两者在推理能力上的差距。

📝 摘要（中文）

美国专利商标局（USPTO）的专利审判和上诉委员会（PTAB）每年裁决数千件单方上诉，这需要技术理解和法律推理的结合。虽然大型语言模型（LLMs）越来越多地应用于专利和法律实践中，但它们的使用仍然局限于轻量级任务，并且缺乏系统性评估其在专利领域进行结构化法律推理能力的方法。本文介绍了PILOT-Bench，这是第一个以PTAB为中心的基准，它在案例层面将PTAB的决策与USPTO的专利数据对齐，并形式化了三个IRAC对齐的分类任务：问题类型、委员会权威和子决策。我们评估了各种闭源（商业）和开源LLM，并从多个角度进行了分析，包括输入变化设置、模型系列和错误倾向。值得注意的是，在问题类型任务中，闭源模型始终超过0.75的Micro-F1分数，而最强的开源模型（Qwen-8B）的性能约为0.56，突出了推理能力的巨大差距。PILOT-Bench为系统评估专利领域的法律推理奠定了基础，并指出了通过数据集设计和模型对齐来改进LLM的未来方向。所有数据、代码和基准资源都可以在https://github.com/TeamLab/pilot-bench上找到。

🔬 方法详解

问题定义：论文旨在解决缺乏系统性评估大型语言模型在专利领域进行结构化法律推理能力的问题。现有方法无法有效评估LLM在理解专利法律文本和进行复杂推理方面的能力，阻碍了LLM在该领域的应用。

核心思路：论文的核心思路是构建一个以PTAB（专利审判和上诉委员会）为中心的基准数据集PILOT-Bench，该数据集包含PTAB的决策和相关的USPTO专利数据，并定义了三个IRAC（Issue, Rule, Application, Conclusion）对齐的分类任务。通过评估LLM在这些任务上的表现，可以系统地评估其在专利领域的法律推理能力。

技术框架：PILOT-Bench的构建流程包括以下几个主要步骤：1) 数据收集：收集PTAB的决策文本和USPTO的专利数据。2) 数据对齐：在案例层面将PTAB决策与相关的专利数据进行对齐。3) 任务定义：定义三个IRAC对齐的分类任务，包括问题类型、委员会权威和子决策。4) 模型评估：使用各种闭源和开源LLM在PILOT-Bench上进行评估。

关键创新：PILOT-Bench的主要创新在于：1) 它是第一个以PTAB为中心的专利领域法律推理基准。2) 它将PTAB决策与USPTO专利数据在案例层面进行对齐。3) 它形式化了三个IRAC对齐的分类任务，可以更细粒度地评估LLM的法律推理能力。

关键设计：论文的关键设计包括：1) IRAC对齐的任务设计，确保任务能够反映法律推理的基本结构。2) 选择了问题类型、委员会权威和子决策这三个具有代表性的分类任务。3) 评估了多种闭源和开源LLM，以便全面了解不同模型的性能。

📊 实验亮点

实验结果表明，在问题类型任务中，闭源模型（如商业API）的Micro-F1分数始终超过0.75，而最强的开源模型Qwen-8B的性能约为0.56。这突出了闭源模型和开源模型在专利领域法律推理能力上的显著差距，表明现有开源模型在该领域仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于专利检索、专利分析、法律咨询等领域。PILOT-Bench可以帮助开发更智能的专利信息检索系统，辅助律师进行案件分析，并为法律领域的自动化提供技术支持。未来，该基准可以扩展到其他法律领域，推动法律人工智能的发展。

📄 摘要（原文）

The Patent Trial and Appeal Board (PTAB) of the USPTO adjudicates thousands of ex parte appeals each year, requiring the integration of technical understanding and legal reasoning. While large language models (LLMs) are increasingly applied in patent and legal practice, their use has remained limited to lightweight tasks, with no established means of systematically evaluating their capacity for structured legal reasoning in the patent domain. In this work, we introduce PILOT-Bench, the first PTAB-centric benchmark that aligns PTAB decisions with USPTO patent data at the case-level and formalizes three IRAC-aligned classification tasks: Issue Type, Board Authorities, and Subdecision. We evaluate a diverse set of closed-source (commercial) and open-source LLMs and conduct analyses across multiple perspectives, including input-variation settings, model families, and error tendencies. Notably, on the Issue Type task, closed-source models consistently exceed 0.75 in Micro-F1 score, whereas the strongest open-source model (Qwen-8B) achieves performance around 0.56, highlighting a substantial gap in reasoning capabilities. PILOT-Bench establishes a foundation for the systematic evaluation of patent-domain legal reasoning and points toward future directions for improving LLMs through dataset design and model alignment. All data, code, and benchmark resources are available at https://github.com/TeamLab/pilot-bench.

PILOT-Bench: A Benchmark for Legal Reasoning in the Patent Domain with IRAC-Aligned Classification Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理