FsPONER: Few-shot Prompt Optimization for Named Entity Recognition in Domain-specific Scenarios

📄 arXiv: 2407.08035v2 📥 PDF

作者: Yongjian Tang, Rakebul Hasan, Thomas Runkler

分类: cs.CL, cs.IR

发布日期: 2024-07-10 (更新: 2025-04-01)

备注: accepted in the main track at the 27th European Conference on Artificial Intelligence (ECAI-2024)


💡 一句话要点

FsPONER:针对领域特定场景,优化小样本提示学习的命名实体识别方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 命名实体识别 小样本学习 提示优化 领域特定 大型语言模型

📋 核心要点

  1. 现有方法缺乏对LLM小样本学习在领域特定NER任务中效率的深入研究,尤其是在工业制造等数据稀缺场景。
  2. FsPONER通过优化小样本提示,提升LLM在领域特定NER任务中的性能,核心在于设计有效的小样本选择策略。
  3. 实验结果表明,在工业制造和维护等真实场景中,FsPONER结合TF-IDF的小样本选择策略,F1分数超越微调模型约10%。

📝 摘要(中文)

大型语言模型(LLMs)为命名实体识别(NER)任务提供了一种新途径。与微调相比,基于LLM的提示方法避免了训练需求,节省了大量计算资源,并且仅依赖于最少的标注数据。以往的研究在通用NER基准测试中取得了与完全监督的基于BERT的微调方法相当的性能。然而,以前的方法都没有研究基于LLM的小样本学习在领域特定场景中的效率。为了解决这个差距,我们引入了FsPONER,一种用于优化小样本提示的新方法,并在领域特定的NER数据集上评估其性能,重点关注工业制造和维护,同时使用多个LLM——GPT-4-32K、GPT-3.5-Turbo、LLaMA 2-chat和Vicuna。FsPONER由三种基于随机抽样、TF-IDF向量及其组合的小样本选择方法组成。我们将这些方法与通用GPT-NER方法进行比较,随着小样本示例数量的增加,并评估它们相对于微调的BERT和LLaMA 2-chat的最佳NER性能。在考虑的具有数据稀缺性的真实场景中,使用TF-IDF的FsPONER在F1分数上超过了微调模型约10%。

🔬 方法详解

问题定义:论文旨在解决领域特定场景下,命名实体识别任务中数据稀缺的问题。现有方法,如基于BERT的微调,需要大量标注数据,而通用LLM的zero-shot或few-shot方法在特定领域表现不佳,缺乏针对性优化。

核心思路:论文的核心思路是通过优化小样本提示(Prompt Optimization),提升LLM在领域特定NER任务中的性能。关键在于选择最具代表性的小样本示例,以引导LLM更好地理解和识别特定领域的实体。

技术框架:FsPONER框架主要包含三个阶段:1) 小样本选择:采用随机抽样、TF-IDF向量和二者结合三种方法选择小样本;2) 提示构建:将选择的小样本构建成提示,输入到LLM中;3) NER预测:利用LLM进行命名实体识别,并评估性能。

关键创新:论文的关键创新在于提出了针对领域特定NER任务的小样本提示优化方法FsPONER,并探索了不同的样本选择策略。与传统方法相比,FsPONER无需大量标注数据,且能有效利用LLM的知识,提升领域特定NER性能。

关键设计:FsPONER的关键设计在于小样本选择策略。TF-IDF方法通过计算文本中词语的TF-IDF值,选择与目标文本最相关的样本,从而提高LLM的识别准确率。具体参数设置未知,但TF-IDF的计算方式和top-k样本的选择是重要的超参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在工业制造和维护等真实场景中,FsPONER结合TF-IDF的小样本选择策略,在F1分数上超过了微调的BERT和LLaMA 2-chat模型约10%。这表明,在数据稀缺的领域特定场景下,优化的小样本提示学习方法能够显著提升NER性能,甚至超越传统的微调方法。

🎯 应用场景

该研究成果可应用于工业制造、医疗健康、金融等领域,提升领域特定文本的自动化信息抽取能力。例如,在工业制造中,可用于识别设备故障、零件信息等关键实体,辅助故障诊断和维护决策。该方法在数据稀缺场景下具有重要价值,有望降低标注成本,加速领域知识的自动化获取。

📄 摘要(原文)

Large Language Models (LLMs) have provided a new pathway for Named Entity Recognition (NER) tasks. Compared with fine-tuning, LLM-powered prompting methods avoid the need for training, conserve substantial computational resources, and rely on minimal annotated data. Previous studies have achieved comparable performance to fully supervised BERT-based fine-tuning approaches on general NER benchmarks. However, none of the previous approaches has investigated the efficiency of LLM-based few-shot learning in domain-specific scenarios. To address this gap, we introduce FsPONER, a novel approach for optimizing few-shot prompts, and evaluate its performance on domain-specific NER datasets, with a focus on industrial manufacturing and maintenance, while using multiple LLMs -- GPT-4-32K, GPT-3.5-Turbo, LLaMA 2-chat, and Vicuna. FsPONER consists of three few-shot selection methods based on random sampling, TF-IDF vectors, and a combination of both. We compare these methods with a general-purpose GPT-NER method as the number of few-shot examples increases and evaluate their optimal NER performance against fine-tuned BERT and LLaMA 2-chat. In the considered real-world scenarios with data scarcity, FsPONER with TF-IDF surpasses fine-tuned models by approximately 10% in F1 score.