PEDANTIC: A Dataset for the Automatic Examination of Definiteness in Patent Claims
作者: Valentin Knappich, Annemarie Friedrich, Anna Hätty, Simon Razniewski
分类: cs.CL
发布日期: 2025-05-27 (更新: 2025-06-18)
备注: PatentSemTech@SIGIR2025
💡 一句话要点
提出PEDANTIC数据集,用于自动审查专利权利要求中的不确定性问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 专利权利要求 不确定性审查 自然语言处理 大型语言模型 数据集构建
📋 核心要点
- 专利权利要求的不确定性是专利申请被驳回的常见原因,缺乏自动审查方法和标注数据集。
- 论文提出PEDANTIC数据集,通过自动管道从USPTO提取办公行动文件,并用LLM标注不确定性原因。
- 实验表明,即使大型LLM能识别不确定性原因,在确定性预测方面仍难以超越逻辑回归基线。
📝 摘要(中文)
专利权利要求定义了发明的保护范围。如果权利要求中存在歧义,专利局将驳回该申请。在美国,这被称为不确定性(35 U.S.C § 112(b)),是专利申请被驳回的最常见原因之一。开发用于专利确定性审查的自动方法有可能提高专利起草和审查的效率,但迄今为止尚未发布带注释的数据集。我们引入了PEDANTIC(专利确定性审查语料库),这是一个包含1.4万条美国专利权利要求的新数据集,这些权利要求来自与自然语言处理(NLP)相关的专利申请,并标注了不确定性的原因。我们使用全自动管道构建PEDANTIC,该管道从USPTO检索办公行动文件,并使用大型语言模型(LLM)提取不确定性的原因。一项人工验证研究证实了该管道在生成高质量注释方面的准确性。为了获得超越二元分类指标的见解,我们实施了一种LLM-as-Judge评估,该评估将每个模型引用的原因与每个审查员引用的原因进行自由形式的推理比较。我们表明,即使基于Qwen 2.5 32B和72B的LLM代理通常能正确识别根本原因,它们在确定性预测方面也难以胜过逻辑回归基线。PEDANTIC为专利AI研究人员提供了一个宝贵的资源,能够开发先进的审查模型。我们将公开发布数据集和代码。
🔬 方法详解
问题定义:论文旨在解决专利权利要求中不确定性自动审查的问题。现有方法缺乏标注数据集,难以训练有效的模型,导致专利审查效率低下。现有方法无法有效识别和解释专利权利要求中存在的不确定性,导致审查过程耗时且容易出错。
核心思路:论文的核心思路是构建一个高质量的标注数据集PEDANTIC,并利用大型语言模型(LLM)自动提取和标注专利权利要求中的不确定性原因。通过该数据集,可以训练更有效的模型来自动审查专利权利要求,提高专利审查的效率和准确性。
技术框架:PEDANTIC的构建流程主要包括以下几个阶段:1) 从USPTO检索与自然语言处理(NLP)相关的专利申请的办公行动文件;2) 使用大型语言模型(LLM)自动提取办公行动文件中指出的不确定性原因;3) 对提取的原因进行人工验证,确保标注的质量;4) 构建包含1.4万条美国专利权利要求的数据集。同时,论文还提出了一个LLM-as-Judge的评估方法,用于比较模型和审查员对不确定性原因的判断。
关键创新:该论文的关键创新在于构建了一个大规模的、高质量的专利权利要求不确定性标注数据集PEDANTIC,这是首个公开的此类数据集。此外,论文还提出了一种基于LLM的自动标注和评估方法,可以有效地提取和评估专利权利要求中的不确定性原因。
关键设计:在数据标注方面,论文使用了大型语言模型(LLM)进行自动标注,并进行了人工验证,以保证标注的质量。在模型评估方面,论文提出了LLM-as-Judge的评估方法,将模型对不确定性原因的判断与审查员的判断进行比较,从而更全面地评估模型的性能。论文使用了Qwen 2.5 32B和72B等大型语言模型进行实验。
📊 实验亮点
论文构建了包含1.4万条美国专利权利要求的数据集PEDANTIC,并进行了人工验证,保证了标注质量。实验结果表明,即使使用Qwen 2.5 32B和72B等大型语言模型,在确定性预测方面也难以超越逻辑回归基线,但LLM在识别不确定性原因方面表现良好。LLM-as-Judge评估方法能够更全面地评估模型的性能。
🎯 应用场景
该研究成果可应用于专利自动审查系统,辅助专利审查员快速识别和判断专利权利要求中的不确定性,提高专利审查效率,降低审查成本。同时,该数据集也可用于训练更先进的专利分析和预测模型,为专利申请人提供更好的专利撰写建议。
📄 摘要(原文)
Patent claims define the scope of protection for an invention. If there are ambiguities in a claim, it is rejected by the patent office. In the US, this is referred to as indefiniteness (35 U.S.C § 112(b)) and is among the most frequent reasons for patent application rejection. The development of automatic methods for patent definiteness examination has the potential to make patent drafting and examination more efficient, but no annotated dataset has been published to date. We introduce PEDANTIC (Patent Definiteness Examination Corpus), a novel dataset of 14k US patent claims from patent applications relating to Natural Language Processing (NLP), annotated with reasons for indefiniteness. We construct PEDANTIC using a fully automatic pipeline that retrieves office action documents from the USPTO and uses Large Language Models (LLMs) to extract the reasons for indefiniteness. A human validation study confirms the pipeline's accuracy in generating high-quality annotations. To gain insight beyond binary classification metrics, we implement an LLM-as-Judge evaluation that compares the free-form reasoning of every model-cited reason with every examiner-cited reason. We show that LLM agents based on Qwen 2.5 32B and 72B struggle to outperform logistic regression baselines on definiteness prediction, even though they often correctly identify the underlying reasons. PEDANTIC provides a valuable resource for patent AI researchers, enabling the development of advanced examination models. We will publicly release the dataset and code.