FsPONER: Few-shot Prompt Optimization for Named Entity Recognition in Domain-specific Scenarios

作者: Yongjian Tang, Rakebul Hasan, Thomas Runkler

分类: cs.CL, cs.IR

发布日期: 2024-07-10 (更新: 2025-04-01)

备注: accepted in the main track at the 27th European Conference on Artificial Intelligence (ECAI-2024)

💡 一句话要点

FsPONER：针对领域特定场景，优化小样本提示学习的命名实体识别方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 命名实体识别 小样本学习 提示优化 领域特定 大型语言模型

📋 核心要点

现有方法缺乏对LLM小样本学习在领域特定NER任务中效率的深入研究，尤其是在工业制造等数据稀缺场景。
FsPONER通过优化小样本提示，提升LLM在领域特定NER任务中的性能，核心在于设计有效的小样本选择策略。
实验结果表明，在工业制造和维护等真实场景中，FsPONER结合TF-IDF的小样本选择策略，F1分数超越微调模型约10%。

📝 摘要（中文）

大型语言模型(LLMs)为命名实体识别(NER)任务提供了一种新途径。与微调相比，基于LLM的提示方法避免了训练需求，节省了大量计算资源，并且仅依赖于最少的标注数据。以往的研究在通用NER基准测试中取得了与完全监督的基于BERT的微调方法相当的性能。然而，以前的方法都没有研究基于LLM的小样本学习在领域特定场景中的效率。为了解决这个差距，我们引入了FsPONER，一种用于优化小样本提示的新方法，并在领域特定的NER数据集上评估其性能，重点关注工业制造和维护，同时使用多个LLM——GPT-4-32K、GPT-3.5-Turbo、LLaMA 2-chat和Vicuna。FsPONER由三种基于随机抽样、TF-IDF向量及其组合的小样本选择方法组成。我们将这些方法与通用GPT-NER方法进行比较，随着小样本示例数量的增加，并评估它们相对于微调的BERT和LLaMA 2-chat的最佳NER性能。在考虑的具有数据稀缺性的真实场景中，使用TF-IDF的FsPONER在F1分数上超过了微调模型约10%。

🔬 方法详解

问题定义：论文旨在解决领域特定场景下，命名实体识别任务中数据稀缺的问题。现有方法，如基于BERT的微调，需要大量标注数据，而通用LLM的zero-shot或few-shot方法在特定领域表现不佳，缺乏针对性优化。

核心思路：论文的核心思路是通过优化小样本提示(Prompt Optimization)，提升LLM在领域特定NER任务中的性能。关键在于选择最具代表性的小样本示例，以引导LLM更好地理解和识别特定领域的实体。

技术框架：FsPONER框架主要包含三个阶段：1) 小样本选择：采用随机抽样、TF-IDF向量和二者结合三种方法选择小样本；2) 提示构建：将选择的小样本构建成提示，输入到LLM中；3) NER预测：利用LLM进行命名实体识别，并评估性能。

关键创新：论文的关键创新在于提出了针对领域特定NER任务的小样本提示优化方法FsPONER，并探索了不同的样本选择策略。与传统方法相比，FsPONER无需大量标注数据，且能有效利用LLM的知识，提升领域特定NER性能。

关键设计：FsPONER的关键设计在于小样本选择策略。TF-IDF方法通过计算文本中词语的TF-IDF值，选择与目标文本最相关的样本，从而提高LLM的识别准确率。具体参数设置未知，但TF-IDF的计算方式和top-k样本的选择是重要的超参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在工业制造和维护等真实场景中，FsPONER结合TF-IDF的小样本选择策略，在F1分数上超过了微调的BERT和LLaMA 2-chat模型约10%。这表明，在数据稀缺的领域特定场景下，优化的小样本提示学习方法能够显著提升NER性能，甚至超越传统的微调方法。

🎯 应用场景

该研究成果可应用于工业制造、医疗健康、金融等领域，提升领域特定文本的自动化信息抽取能力。例如，在工业制造中，可用于识别设备故障、零件信息等关键实体，辅助故障诊断和维护决策。该方法在数据稀缺场景下具有重要价值，有望降低标注成本，加速领域知识的自动化获取。

📄 摘要（原文）

Large Language Models (LLMs) have provided a new pathway for Named Entity Recognition (NER) tasks. Compared with fine-tuning, LLM-powered prompting methods avoid the need for training, conserve substantial computational resources, and rely on minimal annotated data. Previous studies have achieved comparable performance to fully supervised BERT-based fine-tuning approaches on general NER benchmarks. However, none of the previous approaches has investigated the efficiency of LLM-based few-shot learning in domain-specific scenarios. To address this gap, we introduce FsPONER, a novel approach for optimizing few-shot prompts, and evaluate its performance on domain-specific NER datasets, with a focus on industrial manufacturing and maintenance, while using multiple LLMs -- GPT-4-32K, GPT-3.5-Turbo, LLaMA 2-chat, and Vicuna. FsPONER consists of three few-shot selection methods based on random sampling, TF-IDF vectors, and a combination of both. We compare these methods with a general-purpose GPT-NER method as the number of few-shot examples increases and evaluate their optimal NER performance against fine-tuned BERT and LLaMA 2-chat. In the considered real-world scenarios with data scarcity, FsPONER with TF-IDF surpasses fine-tuned models by approximately 10% in F1 score.

FsPONER: Few-shot Prompt Optimization for Named Entity Recognition in Domain-specific Scenarios

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理