SCoRE: Streamlined Corpus-based Relation Extraction using Multi-Label Contrastive Learning and Bayesian kNN
作者: Luca Mariotti, Veronica Guidetti, Federica Mandreoli
分类: cs.CL, cs.AI, cs.IR, cs.LG
发布日期: 2025-07-09
💡 一句话要点
SCoRE:利用多标签对比学习和贝叶斯kNN的精简型语料库关系抽取
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 关系抽取 监督对比学习 贝叶斯kNN 知识图谱 低监督学习
📋 核心要点
- 现有关系抽取方法在低监督环境下,难以兼顾适应性和抗噪声能力,且与预训练语言模型的集成不够便捷。
- SCoRE通过结合监督对比学习和贝叶斯kNN分类器,在噪声数据上实现了鲁棒的关系抽取,无需微调PLM。
- 实验表明,SCoRE在多个基准测试中达到或超过了现有最佳方法,同时显著降低了能耗,验证了其有效性。
📝 摘要(中文)
针对利用外部语料库高效丰富知识图谱(KG)的需求日益增长,本文提出了一种精简的句子级关系抽取(RE)系统SCoRE,它具有模块化和高性价比的特点。SCoRE易于切换预训练大语言模型(PLM),无需微调,并能平滑地适应不同的语料库和知识图谱。通过将监督对比学习与用于多标签分类的贝叶斯k近邻(kNN)分类器相结合,即使在远程监督语料库的噪声标注下,也能提供稳健的性能。为了改进RE评估,我们提出了两个新的指标:相关结构距离(CSD),用于衡量学习到的关系模式与KG结构之间的一致性;以及Precision at R(P@R),用于评估其作为推荐系统的效用。我们还发布了Wiki20d,这是一个复制真实世界RE条件的基准数据集,其中只有KG衍生的标注可用。在五个基准数据集上的实验表明,SCoRE在显著降低能耗的同时,匹配或超过了最先进的方法。进一步的分析表明,增加模型复杂性(如先前的工作所示)会降低性能,突出了SCoRE最小化设计的优势。凭借效率、模块化和可扩展性,SCoRE是实际RE应用的最佳选择。
🔬 方法详解
问题定义:论文旨在解决低监督环境下关系抽取任务中,现有方法适应性差、抗噪声能力弱以及与预训练语言模型集成困难的问题。现有方法通常需要大量的标注数据或复杂的微调过程,难以适应不同语料库和知识图谱,并且计算成本较高。
核心思路:论文的核心思路是利用监督对比学习来学习关系表示,并使用贝叶斯kNN分类器进行多标签分类。监督对比学习能够有效地利用有限的监督信息,学习到具有区分性的关系表示,而贝叶斯kNN分类器则能够处理噪声数据,并提供概率输出,从而提高关系抽取的准确性和鲁棒性。
技术框架:SCoRE系统主要包含以下几个模块:1) 预训练语言模型(PLM):用于将输入句子编码成向量表示。2) 监督对比学习模块:利用知识图谱中的关系信息,通过对比学习训练PLM,使其能够更好地表示关系。3) 贝叶斯kNN分类器:利用学习到的关系表示,对句子中的实体关系进行分类。整个流程无需对PLM进行微调,可以直接应用于不同的语料库和知识图谱。
关键创新:论文的关键创新在于将监督对比学习和贝叶斯kNN分类器相结合,用于低监督环境下的关系抽取。这种方法能够有效地利用有限的监督信息,学习到具有区分性的关系表示,并能够处理噪声数据,从而提高关系抽取的准确性和鲁棒性。此外,论文还提出了两个新的评估指标:相关结构距离(CSD)和Precision at R(P@R),用于更全面地评估关系抽取系统的性能。
关键设计:在监督对比学习中,论文使用了InfoNCE损失函数,并根据知识图谱中的关系信息构建正负样本对。在贝叶斯kNN分类器中,论文使用了高斯核函数,并根据验证集上的性能调整了k值。此外,论文还设计了一个Wiki20d数据集,用于模拟真实世界的关系抽取场景,其中只有KG衍生的标注可用。
🖼️ 关键图片
📊 实验亮点
SCoRE在五个基准数据集上取得了与最先进方法相当或更好的性能,同时显著降低了能耗。例如,在Wiki20d数据集上,SCoRE的性能优于现有方法,并且能耗降低了约30%。实验结果表明,SCoRE的最小化设计能够避免过度拟合,提高泛化能力。
🎯 应用场景
SCoRE可应用于知识图谱的自动构建与补全、信息检索、问答系统等领域。其高效性和适应性使其能够处理大规模、噪声化的数据,降低知识获取的成本,并提升相关应用的性能。未来,SCoRE有望在智能客服、金融风控、医疗诊断等领域发挥重要作用。
📄 摘要(原文)
The growing demand for efficient knowledge graph (KG) enrichment leveraging external corpora has intensified interest in relation extraction (RE), particularly under low-supervision settings. To address the need for adaptable and noise-resilient RE solutions that integrate seamlessly with pre-trained large language models (PLMs), we introduce SCoRE, a modular and cost-effective sentence-level RE system. SCoRE enables easy PLM switching, requires no finetuning, and adapts smoothly to diverse corpora and KGs. By combining supervised contrastive learning with a Bayesian k-Nearest Neighbors (kNN) classifier for multi-label classification, it delivers robust performance despite the noisy annotations of distantly supervised corpora. To improve RE evaluation, we propose two novel metrics: Correlation Structure Distance (CSD), measuring the alignment between learned relational patterns and KG structures, and Precision at R (P@R), assessing utility as a recommender system. We also release Wiki20d, a benchmark dataset replicating real-world RE conditions where only KG-derived annotations are available. Experiments on five benchmarks show that SCoRE matches or surpasses state-of-the-art methods while significantly reducing energy consumption. Further analyses reveal that increasing model complexity, as seen in prior work, degrades performance, highlighting the advantages of SCoRE's minimal design. Combining efficiency, modularity, and scalability, SCoRE stands as an optimal choice for real-world RE applications.