Okay, Let's Do This! Modeling Event Coreference with Generated Rationales and Knowledge Distillation

作者: Abhijnan Nath, Shadi Manafi, Avyakta Chelle, Nikhil Krishnaswamy

分类: cs.CL

发布日期: 2024-04-04

备注: To be published in NAACL 2024 Main

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于生成推理和知识蒸馏的事件共指建模方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 事件共指解析 知识蒸馏 生成推理 跨文档处理 自然语言处理

📋 核心要点

现有的事件共指解析方法通常依赖于大量标注数据，成本高且难以扩展。
本文提出利用自回归大型语言模型生成的推理文本作为远程监督，结合知识蒸馏来提升小型模型的性能。
实验结果表明，所提方法在多个数据集上达到了最先进的性能，尤其是在ECB+和GVC语料库上表现优异。

📝 摘要（中文）

在自然语言处理领域，事件共指解析（ECR）旨在连接指代同一现实事件的事件簇。本文探讨了利用现代自回归大型语言模型生成的推理文本（FTRs）作为小型学生模型的远程监督，以实现跨文档事件共指（CDCR）。我们实现了新颖的推理导向事件聚类和知识蒸馏方法，利用FTRs中的丰富信息来改进CDCR，而无需额外的标注或昂贵的文档聚类。我们的模型在ECB+和GVC语料库上达到了SOTA B3 F1，并在AIDA Phase 1语料库上建立了新的基线。

🔬 方法详解

问题定义：本文解决的是事件共指解析中的跨文档共指问题，现有方法往往依赖于大量标注数据，导致成本高且难以扩展。

核心思路：我们提出利用大型语言模型生成的推理文本（FTRs）作为远程监督，结合知识蒸馏技术，来提升小型模型在事件共指解析中的表现。这样的设计旨在通过丰富的上下文信息来增强模型的理解能力。

技术框架：整体架构包括生成推理文本、事件聚类和知识蒸馏三个主要模块。首先，使用大型语言模型生成推理文本，然后基于这些文本进行事件聚类，最后通过知识蒸馏将知识传递给小型学生模型。

关键创新：本研究的关键创新在于将生成的推理文本与知识蒸馏相结合，利用FTRs中的丰富信息来提升事件共指解析的准确性。这种方法与传统的依赖标注数据的方式有本质区别。

关键设计：在模型设计中，我们采用了特定于共指的知识蒸馏策略，优化了损失函数以适应事件共指的特性，并设计了适合事件聚类的网络结构。

🖼️ 关键图片

📊 实验亮点

实验结果显示，所提模型在ECB+和GVC语料库上达到了最先进的B3 F1分数，并在AIDA Phase 1语料库上建立了新的基线，展现出显著的性能提升，证明了方法的有效性。

🎯 应用场景

该研究的潜在应用领域包括信息检索、知识图谱构建和事件分析等。通过提高事件共指解析的准确性，能够更好地理解和处理大规模文本数据，进而推动智能问答系统和自动摘要等技术的发展。

📄 摘要（原文）

In NLP, Event Coreference Resolution (ECR) is the task of connecting event clusters that refer to the same underlying real-life event, usually via neural systems. In this work, we investigate using abductive free-text rationales (FTRs) generated by modern autoregressive LLMs as distant supervision of smaller student models for cross-document coreference (CDCR) of events. We implement novel rationale-oriented event clustering and knowledge distillation methods for event coreference scoring that leverage enriched information from the FTRs for improved CDCR without additional annotation or expensive document clustering. Our model using coreference specific knowledge distillation achieves SOTA B3 F1 on the ECB+ and GVC corpora and we establish a new baseline on the AIDA Phase 1 corpus. Our code can be found at https://github.com/csu-signal/llama_cdcr

Okay, Let's Do This! Modeling Event Coreference with Generated Rationales and Knowledge Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理