Harnessing Large Language Models for Biomedical Named Entity Recognition

📄 arXiv: 2512.22738v1 📥 PDF

作者: Jian Chen, Leilei Su, Cong Sun

分类: cs.CL, cs.AI

发布日期: 2025-12-28


💡 一句话要点

BioSelectTune:一种高效的数据为中心的LLM微调框架,用于生物医学命名实体识别

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生物医学命名实体识别 大型语言模型 数据为中心 弱监督学习 数据过滤 微调 JSON生成

📋 核心要点

  1. 现有方法难以将通用LLM应用于BioNER,主要挑战在于LLM缺乏领域知识和低质量训练数据。
  2. BioSelectTune通过混合超滤策略,利用弱模型提炼高质量训练数据,实现高效的LLM微调。
  3. 实验表明,BioSelectTune在BioNER基准测试中达到SOTA,且仅需少量高质量数据即可超越领域专用模型。

📝 摘要(中文)

背景与目标:生物医学命名实体识别(BioNER)是医学信息学中的一项基础任务,对于药物发现和临床试验匹配等下游应用至关重要。然而,将通用领域的大型语言模型(LLM)应用于此任务通常会受到其缺乏领域特定知识以及低质量训练数据导致的性能下降的阻碍。为了解决这些挑战,我们引入了BioSelectTune,这是一个高效的、以数据为中心的LLM微调框架,它优先考虑数据质量而非数量。方法与结果:BioSelectTune将BioNER重新定义为结构化的JSON生成任务,并利用我们新颖的混合超滤策略,这是一种由弱到强的数据管理方法,它使用同源弱模型来提炼紧凑、高影响力的训练数据集。结论:通过广泛的实验,我们证明BioSelectTune在多个BioNER基准测试中实现了最先进(SOTA)的性能。值得注意的是,我们的模型仅使用50%的精选阳性数据进行训练,不仅超过了完全训练的基线,而且优于强大的领域专用模型,如BioMedBERT。

🔬 方法详解

问题定义:论文旨在解决生物医学命名实体识别(BioNER)中,通用领域大型语言模型(LLM)因缺乏领域知识和低质量训练数据而导致的性能下降问题。现有方法通常依赖大量数据进行训练,但忽略了数据质量,导致模型泛化能力不足。

核心思路:论文的核心思路是优先考虑训练数据的质量而非数量,通过一种弱到强的数据管理方法,即混合超滤策略,从原始数据集中筛选出高质量、高影响力的子集,用于LLM的微调。这样可以提高训练效率,并提升模型在BioNER任务上的性能。

技术框架:BioSelectTune框架主要包含以下几个阶段:1) 将BioNER任务重新定义为结构化的JSON生成任务;2) 使用一个同源的弱模型(weak model)对原始训练数据进行初步筛选;3) 利用混合超滤策略,进一步提炼高质量的训练数据;4) 使用筛选后的数据对LLM进行微调。

关键创新:论文的关键创新在于提出的混合超滤策略(Hybrid Superfiltering)。该策略利用一个性能相对较弱的模型,对原始数据进行初步筛选,然后通过某种机制(具体机制未知,论文中可能未详细描述)进一步提炼高质量数据。这种弱到强的数据管理方法,能够有效地去除噪声数据,保留关键信息,从而提高训练数据的质量。

关键设计:论文的关键设计包括:1) 将BioNER任务转化为结构化JSON生成任务,这使得LLM能够更好地理解和处理BioNER任务;2) 混合超滤策略的具体实现细节(未知,需要查阅论文原文),可能涉及到阈值设定、模型选择、数据增强等技术;3) LLM微调过程中使用的损失函数、优化器等参数设置(未知,需要查阅论文原文)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BioSelectTune在多个BioNER基准测试中取得了SOTA性能。更重要的是,该模型仅使用50%的精选阳性数据进行训练,不仅超越了完全训练的基线模型,而且优于领域专用模型BioMedBERT。这表明BioSelectTune在数据效率方面具有显著优势。

🎯 应用场景

BioSelectTune在生物医学领域具有广泛的应用前景,可用于药物发现、临床试验匹配、疾病诊断等。通过提高BioNER的准确性和效率,该方法可以加速生物医学研究进程,并为临床决策提供更可靠的支持。未来,该方法可以推广到其他领域,例如金融、法律等,以解决领域知识缺乏和数据质量不高的问题。

📄 摘要(原文)

Background and Objective: Biomedical Named Entity Recognition (BioNER) is a foundational task in medical informatics, crucial for downstream applications like drug discovery and clinical trial matching. However, adapting general-domain Large Language Models (LLMs) to this task is often hampered by their lack of domain-specific knowledge and the performance degradation caused by low-quality training data. To address these challenges, we introduce BioSelectTune, a highly efficient, data-centric framework for fine-tuning LLMs that prioritizes data quality over quantity. Methods and Results: BioSelectTune reformulates BioNER as a structured JSON generation task and leverages our novel Hybrid Superfiltering strategy, a weak-to-strong data curation method that uses a homologous weak model to distill a compact, high-impact training dataset. Conclusions: Through extensive experiments, we demonstrate that BioSelectTune achieves state-of-the-art (SOTA) performance across multiple BioNER benchmarks. Notably, our model, trained on only 50% of the curated positive data, not only surpasses the fully-trained baseline but also outperforms powerful domain-specialized models like BioMedBERT.