DiZiNER: Disagreement-guided Instruction Refinement via Pilot Annotation Simulation for Zero-shot Named Entity Recognition

作者: Siun Kim, Hyung-Jin Yoon

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-17

备注: 9 pages, 3 figures; Accepted to the ACL 2026 Main Conference

💡 一句话要点

DiZiNER：通过模拟Pilot标注过程，利用异构LLM解决零样本NER指令优化问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 命名实体识别 指令优化 大型语言模型 分歧学习

📋 核心要点

现有零样本NER方法依赖LLM，但存在系统性错误，性能远低于监督学习。
DiZiNER模拟人工标注过程，利用多个LLM标注并分析分歧，优化任务指令。
实验表明，DiZiNER在多个数据集上显著提升零样本NER性能，缩小了与监督学习的差距。

📝 摘要（中文）

大型语言模型（LLMs）通过实现零样本和少样本命名实体识别（NER）推动了信息抽取（IE）的发展，但其生成输出仍然存在持续且系统性的错误。尽管通过指令微调取得了一些进展，但零样本NER仍然远远落后于监督系统。这些反复出现的错误反映了早期人工标注过程中观察到的不一致性，这些不一致性通过Pilot标注来解决。受此启发，我们提出了DiZiNER（Disagreement-guided Instruction Refinement via Pilot Annotation Simulation for Zero-shot Named Entity Recognition），该框架模拟了Pilot标注过程，采用LLM充当标注者和监督者。多个异构LLM标注共享文本，监督模型分析模型间的差异以改进任务指令。在18个基准测试中，DiZiNER在14个数据集上实现了零样本SOTA结果，将之前的最佳结果提高了+8.0 F1，并将零样本与监督之间的差距缩小了+11个百分点以上。它也始终优于其监督者GPT-5 mini，表明改进源于基于分歧的指令改进，而不是模型容量。模型之间的成对一致性与NER性能显示出很强的相关性，进一步支持了这一发现。

🔬 方法详解

问题定义：论文旨在解决零样本命名实体识别（NER）中，大型语言模型（LLMs）由于指令不明确或存在偏差而导致的性能瓶颈问题。现有方法，如直接使用LLM进行零样本NER，或通过指令微调来提升性能，仍然无法达到监督学习的效果，且容易出现系统性错误。这些错误往往源于LLM对任务理解的不一致性。

核心思路：DiZiNER的核心思路是模拟人工标注中的“Pilot标注”过程。在真实的人工标注中，标注者会先进行小规模的Pilot标注，然后由专家分析标注结果中的分歧，从而改进标注指南，提高标注一致性和准确性。DiZiNER将这一过程自动化，利用多个LLM作为标注者，通过分析它们之间的分歧来改进任务指令。

技术框架：DiZiNER框架主要包含以下几个阶段： 1. 多模型标注：使用多个异构的LLM（例如不同大小、不同架构的模型）对同一批文本进行NER标注。 2. 分歧分析：比较不同模型之间的标注结果，找出存在分歧的实体类型和位置。 3. 指令优化：使用一个监督模型（例如GPT-5 mini）分析这些分歧，并生成更清晰、更明确的任务指令。 4. 迭代优化：使用优化后的指令重新进行多模型标注和分歧分析，迭代多次以进一步提升指令的质量。

关键创新：DiZiNER的关键创新在于将人工标注中的分歧解决机制引入到零样本NER中，通过模拟Pilot标注过程，自动发现并纠正LLM对任务理解的偏差。与传统的指令微调方法相比，DiZiNER不需要人工标注数据，而是利用LLM自身的能力来生成和分析数据，从而降低了成本，提高了效率。

关键设计： * 异构模型选择：选择具有不同架构和参数规模的LLM作为标注者，以增加分歧的多样性。 * 分歧度量：使用适当的指标来衡量不同模型之间的标注分歧，例如F1值、IoU等。 * 指令优化策略：设计有效的指令优化策略，例如使用提示工程、生成式模型等，将分歧信息转化为更清晰的指令。 * 迭代次数：确定合适的迭代次数，以在性能提升和计算成本之间取得平衡。

🖼️ 关键图片

📊 实验亮点

DiZiNER在18个基准数据集上进行了评估，并在14个数据集上取得了零样本SOTA结果，平均F1值提升了8.0%。与之前的最佳零样本方法相比，DiZiNER将零样本与监督学习之间的差距缩小了超过11个百分点。此外，实验结果表明，DiZiNER的性能优于其监督者GPT-5 mini，证明了改进来自于基于分歧的指令优化，而非模型容量的提升。

🎯 应用场景

DiZiNER具有广泛的应用前景，可用于自动化信息抽取、知识图谱构建、智能问答等领域。尤其是在缺乏标注数据的场景下，DiZiNER能够有效提升零样本NER的性能，降低人工标注成本。未来，该方法可以扩展到其他信息抽取任务，例如关系抽取、事件抽取等，为自然语言处理的应用提供更强大的支持。

📄 摘要（原文）

Large language models (LLMs) have advanced information extraction (IE) by enabling zero-shot and few-shot named entity recognition (NER), yet their generative outputs still show persistent and systematic errors. Despite progress through instruction fine-tuning, zero-shot NER still lags far behind supervised systems. These recurring errors mirror inconsistencies observed in early-stage human annotation processes that resolve disagreements through pilot annotation. Motivated by this analogy, we introduce DiZiNER (Disagreement-guided Instruction Refinement via Pilot Annotation Simulation for Zero-shot Named Entity Recognition), a framework that simulates the pilot annotation process, employing LLMs to act as both annotators and supervisors. Multiple heterogeneous LLMs annotate shared texts, and a supervisor model analyzes inter-model disagreements to refine task instructions. Across 18 benchmarks, DiZiNER achieves zero-shot SOTA results on 14 datasets, improving prior bests by +8.0 F1 and reducing the zero-shot to supervised gap by over +11 points. It also consistently outperforms its supervisor, GPT-5 mini, indicating that improvements stem from disagreement-guided instruction refinement rather than model capacity. Pairwise agreement between models shows a strong correlation with NER performance, further supporting this finding.

DiZiNER: Disagreement-guided Instruction Refinement via Pilot Annotation Simulation for Zero-shot Named Entity Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理