Error-Aware Curriculum Learning for Biomedical Relation Classification

📄 arXiv: 2507.14374v1 📥 PDF

作者: Sinchani Chakraborty, Sudeshna Sarkar, Pawan Goyal

分类: cs.CL

发布日期: 2025-07-18

备注: 16 pages, 2 figures


💡 一句话要点

提出一种误差感知课程学习框架,用于提升生物医学关系分类性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生物医学关系分类 课程学习 误差感知 知识图谱 大型语言模型 指令调整 数据增强

📋 核心要点

  1. 生物医学关系分类对知识图谱构建至关重要,但现有方法在处理复杂关系时存在不足。
  2. 该论文提出误差感知的课程学习框架,利用大语言模型指导学生模型学习,提升分类效果。
  3. 实验表明,该方法在多个生物医学数据集上取得了显著的性能提升,达到新的SOTA。

📝 摘要(中文)

生物医学文本中的关系分类(RC)对于构建知识图谱以及支持药物重定向和临床决策等应用至关重要。我们提出了一个误差感知的教师-学生框架,该框架通过来自大型语言模型(GPT-4o)的结构化指导来改进RC。教师分析来自基线学生模型的预测失败,以对误差类型进行分类,分配难度分数,并生成有针对性的补救措施,包括句子重写和基于KG的富集建议。这些丰富的注释用于通过指令调整来训练第一个学生模型。然后,该模型使用难度分数和补救增强的输入来注释更广泛的数据集。随后,通过课程学习,按照难度排序,在该数据集上训练第二个学生,以促进稳健和渐进的学习。我们还从PubMed摘要构建了一个异构生物医学知识图谱,以支持上下文感知的RC。我们的方法在5个PPI数据集中的4个和DDI数据集上实现了新的最先进性能,同时在ChemProt上保持了竞争力。

🔬 方法详解

问题定义:生物医学关系分类旨在识别生物医学文本中实体之间的关系,例如蛋白质-蛋白质相互作用(PPI)和药物-药物相互作用(DDI)。现有方法在处理复杂、歧义或缺乏上下文信息的句子时表现不佳,导致关系分类的准确率较低。此外,缺乏有效的训练数据和针对性强的学习策略也是一个挑战。

核心思路:该论文的核心思路是利用大型语言模型(LLM)作为教师,指导学生模型进行关系分类。教师模型分析学生模型的错误,并提供针对性的补救措施,例如句子重写和知识图谱增强。通过课程学习,学生模型逐步学习从易到难的样本,从而提高模型的泛化能力和鲁棒性。

技术框架:该框架包含以下主要模块:1) 基线学生模型:使用预训练语言模型(例如BERT)作为初始关系分类器。2) 教师模型(GPT-4o):分析基线模型的预测错误,对错误类型进行分类,并生成补救措施。3) 数据增强:利用教师模型提供的补救措施,对训练数据进行增强,包括句子重写和知识图谱信息添加。4) 课程学习:根据样本的难度,对训练数据进行排序,并逐步训练学生模型。5) 最终学生模型:使用增强的数据和课程学习策略训练最终的关系分类器。

关键创新:该论文的关键创新点在于:1) 误差感知:教师模型能够识别学生模型的错误类型,并提供针对性的补救措施。2) 课程学习:通过逐步学习从易到难的样本,提高模型的泛化能力。3) 知识图谱增强:利用生物医学知识图谱,为关系分类提供更丰富的上下文信息。

关键设计:该论文的关键设计包括:1) 使用GPT-4o作为教师模型,利用其强大的语言理解和生成能力。2) 设计了难度评分机制,用于评估样本的难度。3) 采用了指令调整(Instruction Tuning)方法,使学生模型能够更好地理解教师模型的指导。4) 构建了一个异构生物医学知识图谱,用于提供上下文信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该方法在5个PPI数据集中的4个和DDI数据集上实现了新的state-of-the-art性能,并在ChemProt数据集上保持了竞争力。这表明该方法能够有效地提高生物医学关系分类的准确率,优于现有的方法。具体的性能提升数据未知,需要在论文中查找。

🎯 应用场景

该研究成果可应用于生物医学知识图谱的构建、药物重定向、临床决策支持等领域。通过提高生物医学关系分类的准确率,可以更有效地挖掘生物医学文本中的知识,为相关研究提供更可靠的数据基础,加速药物研发和疾病治疗的进程。未来,该方法可以扩展到其他领域的知识图谱构建和信息抽取任务中。

📄 摘要(原文)

Relation Classification (RC) in biomedical texts is essential for constructing knowledge graphs and enabling applications such as drug repurposing and clinical decision-making. We propose an error-aware teacher--student framework that improves RC through structured guidance from a large language model (GPT-4o). Prediction failures from a baseline student model are analyzed by the teacher to classify error types, assign difficulty scores, and generate targeted remediations, including sentence rewrites and suggestions for KG-based enrichment. These enriched annotations are used to train a first student model via instruction tuning. This model then annotates a broader dataset with difficulty scores and remediation-enhanced inputs. A second student is subsequently trained via curriculum learning on this dataset, ordered by difficulty, to promote robust and progressive learning. We also construct a heterogeneous biomedical knowledge graph from PubMed abstracts to support context-aware RC. Our approach achieves new state-of-the-art performance on 4 of 5 PPI datasets and the DDI dataset, while remaining competitive on ChemProt.