Selecting and Merging: Towards Adaptable and Scalable Named Entity Recognition with Large Language Models
作者: Zhuojun Ding, Wei Wei, Chenghao Fan
分类: cs.CL
发布日期: 2025-06-28
💡 一句话要点
提出SaM框架,通过动态选择和合并专家模型,提升大语言模型在命名实体识别任务中的适应性和可扩展性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 命名实体识别 大语言模型 领域自适应 模型选择 模型合并 知识迁移 信息抽取
📋 核心要点
- 现有NER方法依赖于昂贵的领域特定数据标注和模型训练,且统一模型在跨领域泛化和可扩展性方面存在不足。
- SaM框架通过动态选择与目标领域相关的专家模型并进行合并,无需额外训练即可提升模型在目标领域的性能。
- 实验结果表明,SaM框架在多个基准测试中优于统一模型,平均性能提升10%,验证了其有效性和可扩展性。
📝 摘要(中文)
监督式微调(SFT)被广泛用于使大型语言模型(LLM)与信息抽取(IE)任务(如命名实体识别(NER))对齐。然而,标注这种细粒度的标签和训练特定领域的模型成本高昂。现有工作通常在多个领域训练一个统一的模型,但这种方法缺乏适应性和可扩展性,因为并非所有训练数据都有利于目标领域,并且扩展训练后的模型仍然具有挑战性。我们提出了SaM框架,该框架在推理时动态地选择和合并专家模型。具体来说,对于目标领域,我们分别基于(i)与目标领域的领域相似性和(ii)在抽样实例上的性能,选择在现有领域上预训练的领域特定专家。然后合并这些专家,以创建针对目标领域优化的特定于任务的模型。通过动态合并有益于目标领域的专家,我们在不进行额外训练的情况下提高了跨各种领域的泛化能力。此外,可以方便地添加或删除专家,从而实现出色的可扩展性。在多个基准上的大量实验证明了我们框架的有效性,其性能比统一模型平均高出10%。我们进一步提供了对我们框架的潜在改进、实践经验和扩展的见解。
🔬 方法详解
问题定义:论文旨在解决命名实体识别(NER)任务中,现有方法在领域适应性和模型扩展性方面的不足。具体来说,现有方法要么需要大量特定领域的数据进行微调,成本高昂;要么训练一个统一模型,但无法很好地适应不同领域,且模型扩展性差,难以添加或删除特定领域的知识。
核心思路:论文的核心思路是“选择和合并”(Select and Merge)。针对目标领域,首先选择在该领域表现良好的专家模型,然后将这些专家模型合并,从而创建一个针对该领域优化的模型。这种方法避免了从头开始训练新模型或微调统一模型,提高了效率和灵活性。
技术框架:SaM框架主要包含两个阶段:选择(Select)和合并(Merge)。在选择阶段,首先计算目标领域与各个专家模型训练领域的相似度,然后评估各个专家模型在目标领域抽样数据上的性能。综合考虑相似度和性能,选择合适的专家模型。在合并阶段,将选择的专家模型进行合并,生成最终的NER模型。具体的合并方法未知,论文中可能未详细说明。
关键创新:SaM框架的关键创新在于其动态选择和合并专家模型的机制。与传统的统一模型或领域微调方法不同,SaM框架能够根据目标领域的特点,灵活地选择和组合已有的知识,从而实现更好的领域适应性和模型扩展性。这种方法避免了对所有数据进行训练,提高了效率。
关键设计:论文的关键设计包括:(1) 领域相似度计算方法,用于衡量目标领域与专家模型训练领域之间的相关性;(2) 专家模型性能评估方法,用于评估专家模型在目标领域数据上的表现;(3) 专家模型合并策略,用于将选择的专家模型组合成一个整体模型。具体的领域相似度计算方法、性能评估方法和合并策略未知,需要在论文中查找更详细的信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SaM框架在多个NER基准测试中取得了显著的性能提升,平均优于统一模型10%。这表明SaM框架能够有效地利用已有的领域知识,提高模型在目标领域的泛化能力。具体的基线模型和数据集信息未知,需要在论文中查找。
🎯 应用场景
该研究成果可应用于各种需要快速适应新领域的命名实体识别场景,例如:金融、医疗、法律等领域。通过选择和合并已有的领域专家模型,可以快速构建针对特定领域的NER系统,降低开发成本,提高识别准确率。未来,该方法可以扩展到其他信息抽取任务,例如关系抽取、事件抽取等。
📄 摘要(原文)
Supervised fine-tuning (SFT) is widely used to align large language models (LLMs) with information extraction (IE) tasks, such as named entity recognition (NER). However, annotating such fine-grained labels and training domain-specific models is costly. Existing works typically train a unified model across multiple domains, but such approaches lack adaptation and scalability since not all training data benefits target domains and scaling trained models remains challenging. We propose the SaM framework, which dynamically Selects and Merges expert models at inference time. Specifically, for a target domain, we select domain-specific experts pre-trained on existing domains based on (i) domain similarity to the target domain and (ii) performance on sampled instances, respectively. The experts are then merged to create task-specific models optimized for the target domain. By dynamically merging experts beneficial to target domains, we improve generalization across various domains without extra training. Additionally, experts can be added or removed conveniently, leading to great scalability. Extensive experiments on multiple benchmarks demonstrate our framework's effectiveness, which outperforms the unified model by an average of 10%. We further provide insights into potential improvements, practical experience, and extensions of our framework.