DiZiNER: Disagreement-guided Instruction Refinement via Pilot Annotation Simulation for Zero-shot Named Entity Recognition
作者: Siun Kim, Hyung-Jin Yoon
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-04-17
备注: 9 pages, 3 figures; Accepted to the ACL 2026 Main Conference
💡 一句话要点
DiZiNER:通过模拟Pilot标注过程,利用异构LLM解决零样本NER指令优化问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 零样本学习 命名实体识别 指令优化 大型语言模型 分歧学习
📋 核心要点
- 现有零样本NER方法依赖LLM,但存在系统性错误,性能远低于监督学习。
- DiZiNER模拟人工标注过程,利用多个LLM标注并分析分歧,优化任务指令。
- 实验表明,DiZiNER在多个数据集上显著提升零样本NER性能,缩小了与监督学习的差距。
📝 摘要(中文)
大型语言模型(LLMs)通过实现零样本和少样本命名实体识别(NER)推动了信息抽取(IE)的发展,但其生成输出仍然存在持续且系统性的错误。尽管通过指令微调取得了一些进展,但零样本NER仍然远远落后于监督系统。这些反复出现的错误反映了早期人工标注过程中观察到的不一致性,这些不一致性通过Pilot标注来解决。受此启发,我们提出了DiZiNER(Disagreement-guided Instruction Refinement via Pilot Annotation Simulation for Zero-shot Named Entity Recognition),该框架模拟了Pilot标注过程,采用LLM充当标注者和监督者。多个异构LLM标注共享文本,监督模型分析模型间的差异以改进任务指令。在18个基准测试中,DiZiNER在14个数据集上实现了零样本SOTA结果,将之前的最佳结果提高了+8.0 F1,并将零样本与监督之间的差距缩小了+11个百分点以上。它也始终优于其监督者GPT-5 mini,表明改进源于基于分歧的指令改进,而不是模型容量。模型之间的成对一致性与NER性能显示出很强的相关性,进一步支持了这一发现。
🔬 方法详解
问题定义:论文旨在解决零样本命名实体识别(NER)中,大型语言模型(LLMs)由于指令不明确或存在偏差而导致的性能瓶颈问题。现有方法,如直接使用LLM进行零样本NER,或通过指令微调来提升性能,仍然无法达到监督学习的效果,且容易出现系统性错误。这些错误往往源于LLM对任务理解的不一致性。
核心思路:DiZiNER的核心思路是模拟人工标注中的“Pilot标注”过程。在真实的人工标注中,标注者会先进行小规模的Pilot标注,然后由专家分析标注结果中的分歧,从而改进标注指南,提高标注一致性和准确性。DiZiNER将这一过程自动化,利用多个LLM作为标注者,通过分析它们之间的分歧来改进任务指令。
技术框架:DiZiNER框架主要包含以下几个阶段: 1. 多模型标注:使用多个异构的LLM(例如不同大小、不同架构的模型)对同一批文本进行NER标注。 2. 分歧分析:比较不同模型之间的标注结果,找出存在分歧的实体类型和位置。 3. 指令优化:使用一个监督模型(例如GPT-5 mini)分析这些分歧,并生成更清晰、更明确的任务指令。 4. 迭代优化:使用优化后的指令重新进行多模型标注和分歧分析,迭代多次以进一步提升指令的质量。
关键创新:DiZiNER的关键创新在于将人工标注中的分歧解决机制引入到零样本NER中,通过模拟Pilot标注过程,自动发现并纠正LLM对任务理解的偏差。与传统的指令微调方法相比,DiZiNER不需要人工标注数据,而是利用LLM自身的能力来生成和分析数据,从而降低了成本,提高了效率。
关键设计: * 异构模型选择:选择具有不同架构和参数规模的LLM作为标注者,以增加分歧的多样性。 * 分歧度量:使用适当的指标来衡量不同模型之间的标注分歧,例如F1值、IoU等。 * 指令优化策略:设计有效的指令优化策略,例如使用提示工程、生成式模型等,将分歧信息转化为更清晰的指令。 * 迭代次数:确定合适的迭代次数,以在性能提升和计算成本之间取得平衡。
🖼️ 关键图片
📊 实验亮点
DiZiNER在18个基准数据集上进行了评估,并在14个数据集上取得了零样本SOTA结果,平均F1值提升了8.0%。与之前的最佳零样本方法相比,DiZiNER将零样本与监督学习之间的差距缩小了超过11个百分点。此外,实验结果表明,DiZiNER的性能优于其监督者GPT-5 mini,证明了改进来自于基于分歧的指令优化,而非模型容量的提升。
🎯 应用场景
DiZiNER具有广泛的应用前景,可用于自动化信息抽取、知识图谱构建、智能问答等领域。尤其是在缺乏标注数据的场景下,DiZiNER能够有效提升零样本NER的性能,降低人工标注成本。未来,该方法可以扩展到其他信息抽取任务,例如关系抽取、事件抽取等,为自然语言处理的应用提供更强大的支持。
📄 摘要(原文)
Large language models (LLMs) have advanced information extraction (IE) by enabling zero-shot and few-shot named entity recognition (NER), yet their generative outputs still show persistent and systematic errors. Despite progress through instruction fine-tuning, zero-shot NER still lags far behind supervised systems. These recurring errors mirror inconsistencies observed in early-stage human annotation processes that resolve disagreements through pilot annotation. Motivated by this analogy, we introduce DiZiNER (Disagreement-guided Instruction Refinement via Pilot Annotation Simulation for Zero-shot Named Entity Recognition), a framework that simulates the pilot annotation process, employing LLMs to act as both annotators and supervisors. Multiple heterogeneous LLMs annotate shared texts, and a supervisor model analyzes inter-model disagreements to refine task instructions. Across 18 benchmarks, DiZiNER achieves zero-shot SOTA results on 14 datasets, improving prior bests by +8.0 F1 and reducing the zero-shot to supervised gap by over +11 points. It also consistently outperforms its supervisor, GPT-5 mini, indicating that improvements stem from disagreement-guided instruction refinement rather than model capacity. Pairwise agreement between models shows a strong correlation with NER performance, further supporting this finding.