From scratch to silver: Creating trustworthy training data for patent-SDG classification using Large Language Models
作者: Grazia Sveva Ascione, Nicolò Tamagnone
分类: cs.CL
发布日期: 2025-09-11
💡 一句话要点
利用大型语言模型,为专利-SDG分类创建可信的弱监督训练数据。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 专利分类 可持续发展目标 大型语言模型 弱监督学习 语义对齐
📋 核心要点
- 现有专利-SDG分类方法依赖关键词或引用,缺乏可扩展性和通用性,难以有效利用监督学习。
- 利用大型语言模型提取专利和SDG论文中的结构化概念,构建复合标注函数,生成弱监督数据。
- 实验表明,该方法在内部和外部验证中均优于现有基线,提升了SDG分类的准确性和一致性。
📝 摘要(中文)
将专利按照其与联合国可持续发展目标(SDGs)的相关性进行分类,对于追踪创新如何应对全球挑战至关重要。然而,缺乏大型标注数据集限制了监督学习的应用。现有的关键词搜索、迁移学习和基于引用的启发式方法缺乏可扩展性和通用性。本文将专利-SDG分类视为一个弱监督问题,使用专利对SDG标记的科学出版物的引用(NPL引用)作为初始噪声信号。为了解决其稀疏性和噪声问题,我们开发了一种复合标注函数(LF),该函数使用大型语言模型(LLMs)从专利和SDG论文中提取结构化概念,即功能、解决方案和应用,基于专利本体。计算跨域相似度得分,并使用基于排序的检索方法进行组合。通过自定义的正例损失来校准LF,该损失与已知的NPL-SDG链接对齐,而不会惩罚新SDG关联的发现。最终得到一个银标准、软多标签数据集,将专利映射到SDGs,从而能够训练有效的多标签回归模型。我们通过两种互补策略验证了我们的方法:(1)针对保留的基于NPL的标签进行内部验证,我们的方法优于包括基于Transformer的模型和零样本LLM在内的多个基线;(2)使用专利引用、共同发明人和共同申请人图中的网络模块化进行外部验证,我们的标签比传统技术分类揭示了更大的主题、认知和组织连贯性。这些结果表明,弱监督和语义对齐可以大规模地增强SDG分类。
🔬 方法详解
问题定义:论文旨在解决专利到可持续发展目标(SDG)的自动分类问题。现有方法,如关键词搜索、迁移学习和基于引用的启发式方法,存在可扩展性差、泛化能力弱等问题,无法有效利用大规模专利数据进行监督学习。这些方法要么依赖人工标注,成本高昂,要么依赖简单的规则,准确率有限。
核心思路:论文的核心思路是利用弱监督学习,通过大型语言模型(LLMs)自动生成银标准(silver-standard)的训练数据。具体来说,利用专利对SDG相关科学出版物(NPL)的引用关系作为初始的弱标签,并使用LLMs提取专利和SDG论文中的语义信息,从而增强和校准这些弱标签。
技术框架:整体框架包含以下几个主要阶段:1) 数据准备:收集专利数据和SDG相关的科学出版物数据。2) 概念提取:使用LLMs从专利和SDG论文中提取结构化概念,包括功能、解决方案和应用。3) 相似度计算:计算专利和SDG论文在提取的概念上的跨域相似度。4) 标注函数构建:基于相似度得分构建复合标注函数,为每个专利生成一个软多标签,表示其与不同SDG的相关程度。5) 模型训练:使用生成的银标准数据集训练多标签回归模型。
关键创新:最重要的技术创新点在于利用LLMs提取专利和SDG论文中的结构化概念,并将其用于构建标注函数。这与传统的关键词匹配方法相比,能够更准确地捕捉专利和SDG之间的语义关系。此外,论文还提出了一个自定义的正例损失函数,用于校准标注函数,使其与已知的NPL-SDG链接对齐,同时允许发现新的SDG关联。
关键设计:论文使用了一种基于排序的检索方法来组合不同的相似度得分。自定义的正例损失函数旨在最小化已知NPL-SDG链接的预测误差,同时避免过度惩罚未知的SDG关联。具体来说,损失函数只对已知的正例进行惩罚,而对负例和未标注的样本不进行惩罚,从而鼓励模型发现新的SDG关联。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在内部验证中优于基于Transformer的模型和零样本LLM等基线方法。在外部验证中,使用该方法生成的标签能够揭示专利引用、共同发明人和共同申请人网络中更大的主题、认知和组织连贯性,表明其具有更高的准确性和一致性。
🎯 应用场景
该研究成果可应用于大规模专利数据的SDG分类,帮助科研人员、政策制定者和投资者更好地了解创新活动对可持续发展目标的贡献。通过自动识别与SDG相关的专利,可以促进相关技术的转移和应用,加速实现可持续发展目标。此外,该方法还可以扩展到其他领域的文本分类任务,例如科技文献分类、新闻主题分类等。
📄 摘要(原文)
Classifying patents by their relevance to the UN Sustainable Development Goals (SDGs) is crucial for tracking how innovation addresses global challenges. However, the absence of a large, labeled dataset limits the use of supervised learning. Existing methods, such as keyword searches, transfer learning, and citation-based heuristics, lack scalability and generalizability. This paper frames patent-to-SDG classification as a weak supervision problem, using citations from patents to SDG-tagged scientific publications (NPL citations) as a noisy initial signal. To address its sparsity and noise, we develop a composite labeling function (LF) that uses large language models (LLMs) to extract structured concepts, namely functions, solutions, and applications, from patents and SDG papers based on a patent ontology. Cross-domain similarity scores are computed and combined using a rank-based retrieval approach. The LF is calibrated via a custom positive-only loss that aligns with known NPL-SDG links without penalizing discovery of new SDG associations. The result is a silver-standard, soft multi-label dataset mapping patents to SDGs, enabling the training of effective multi-label regression models. We validate our approach through two complementary strategies: (1) internal validation against held-out NPL-based labels, where our method outperforms several baselines including transformer-based models, and zero-shot LLM; and (2) external validation using network modularity in patent citation, co-inventor, and co-applicant graphs, where our labels reveal greater thematic, cognitive, and organizational coherence than traditional technological classifications. These results show that weak supervision and semantic alignment can enhance SDG classification at scale.