PatentEdits: Framing Patent Novelty as Textual Entailment
作者: Ryan Lee, Alexander Spangher, Xuezhe Ma
分类: cs.CL, cs.AI, cs.CY, cs.IR
发布日期: 2024-11-20
💡 一句话要点
提出PatentEdits数据集,将专利新颖性判定转化为文本蕴含任务,并用LLM预测专利修改。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 专利修改 文本蕴含 大型语言模型 专利新颖性 PatentEdits数据集
📋 核心要点
- 现有专利申请流程中,针对驳回意见修改权利要求是一个关键但未被充分研究的环节。
- 论文核心在于将专利新颖性判定问题转化为文本蕴含任务,利用大型语言模型预测修改。
- 构建了包含10.5万个专利修改案例的PatentEdits数据集,并验证了文本蕴含方法在预测修改中的有效性。
📝 摘要(中文)
为了获得美国专利局(USPTO)的授权,一项专利必须被认为是新颖且非显而易见的。如果不是,专利审查员将引用现有技术(prior art)来否定其新颖性,并发出非最终驳回。预测在给定现有技术的情况下,发明的哪些权利要求应该被修改,是确保发明权的关键步骤,但之前未被作为一个可学习的任务进行研究。本文介绍了PatentEdits数据集,其中包含10.5万个成功修改的案例,这些修改克服了对新颖性的异议。我们设计了算法来逐句标注修改,然后评估大型语言模型(LLM)在预测这些修改方面的表现。我们证明了评估引用的参考文献和草稿句子之间的文本蕴含关系,在预测哪些发明权利要求保持不变或相对于现有技术是新颖的方面特别有效。
🔬 方法详解
问题定义:论文旨在解决专利申请过程中,如何根据现有技术(prior art)自动预测需要修改的权利要求这一问题。现有方法主要依赖人工审查,效率低下且成本高昂。缺乏有效的方法来指导专利申请人进行修改,容易导致专利申请被驳回。
核心思路:论文的核心思路是将专利新颖性判定问题转化为文本蕴含(Textual Entailment)问题。具体来说,判断修改后的权利要求是否能够从现有技术中推断出来,如果不能,则说明该权利要求具有新颖性。通过这种方式,可以将专利修改问题转化为一个可学习的自然语言处理任务。
技术框架:整体框架包括以下几个步骤:1) 构建PatentEdits数据集,包含原始权利要求、现有技术以及修改后的权利要求;2) 设计算法对数据集进行标注,标记哪些句子被修改,哪些句子保持不变;3) 利用大型语言模型(LLM)对修改进行预测,并评估预测结果;4) 重点评估文本蕴含方法在预测哪些权利要求保持不变或具有新颖性方面的效果。
关键创新:最重要的创新点在于将专利新颖性判定问题转化为文本蕴含问题,并利用大型语言模型进行预测。这种方法将专利申请流程中的一个关键环节自动化,提高了效率并降低了成本。此外,构建的PatentEdits数据集为该领域的研究提供了宝贵的数据资源。
关键设计:论文设计了算法来标注PatentEdits数据集中的修改,具体方法未知。评估文本蕴含关系时,可能使用了预训练的语言模型,例如BERT或RoBERTa,并针对专利文本进行了微调。损失函数和网络结构等技术细节在论文中未明确说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文构建了包含10.5万个专利修改案例的PatentEdits数据集,为相关研究提供了数据基础。实验结果表明,利用大型语言模型和文本蕴含方法可以有效预测专利修改,但具体的性能数据和提升幅度在摘要中未明确给出,属于未知信息。该研究为专利申请自动化开辟了新的方向。
🎯 应用场景
该研究成果可应用于智能专利申请系统,辅助专利申请人快速定位需要修改的权利要求,提高专利申请成功率。此外,该方法还可用于专利检索和侵权分析,帮助企业更好地保护知识产权。未来,该技术有望整合到法律科技平台,为律师和专利代理人提供更高效的服务。
📄 摘要(原文)
A patent must be deemed novel and non-obvious in order to be granted by the US Patent Office (USPTO). If it is not, a US patent examiner will cite the prior work, or prior art, that invalidates the novelty and issue a non-final rejection. Predicting what claims of the invention should change given the prior art is an essential and crucial step in securing invention rights, yet has not been studied before as a learnable task. In this work we introduce the PatentEdits dataset, which contains 105K examples of successful revisions that overcome objections to novelty. We design algorithms to label edits sentence by sentence, then establish how well these edits can be predicted with large language models (LLMs). We demonstrate that evaluating textual entailment between cited references and draft sentences is especially effective in predicting which inventive claims remained unchanged or are novel in relation to prior art.