Adaptive Schema-aware Event Extraction with Retrieval-Augmented Generation

📄 arXiv: 2505.08690v1 📥 PDF

作者: Sheng Liang, Hang Lv, Zhihao Wen, Yaxiong Wu, Yongyue Zhang, Hao Wang, Yong Liu

分类: cs.CL

发布日期: 2025-05-13

备注: 15 pages, 3 figures


💡 一句话要点

提出ASEE框架,结合模式释义与检索增强生成,解决事件抽取中模式选择与幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事件抽取 模式选择 检索增强生成 大型语言模型 自然语言处理

📋 核心要点

  1. 现有事件抽取方法在模式选择上存在固定化问题,且缺乏联合评估模式匹配和抽取的基准。
  2. ASEE框架通过模式释义和检索增强生成,提升了模式选择的灵活性和生成结构的准确性。
  3. MD-SEE基准的构建和实验结果表明,ASEE在多种场景下具有良好的适应性,显著提升了事件抽取性能。

📝 摘要(中文)

事件抽取(EE)是自然语言处理(NLP)中的一项基本任务,涉及从非结构化文本中识别和提取事件信息。在实际场景中,有效的EE需要两个关键步骤:从数百个候选模式中选择合适的模式并执行抽取过程。现有研究存在两个关键差距:(1)现有流水线系统中模式的刚性固定,以及(2)缺乏用于评估联合模式匹配和抽取的基准。虽然大型语言模型(LLM)提供了潜在的解决方案,但它们的模式幻觉倾向和上下文窗口限制对实际部署构成了挑战。为此,我们提出了一种新的范例——自适应模式感知事件抽取(ASEE),它结合了模式释义与模式检索增强生成。ASEE巧妙地检索释义后的模式,并准确地生成目标结构。为了方便严格评估,我们构建了多维模式感知事件抽取(MD-SEE)基准,该基准系统地整合了跨不同领域、复杂程度和语言设置的12个数据集。在MD-SEE上的广泛评估表明,我们提出的ASEE在各种场景中表现出强大的适应性,显著提高了事件抽取的准确性。

🔬 方法详解

问题定义:事件抽取任务旨在从非结构化文本中识别并提取事件信息,包括事件类型和事件论元。现有方法通常采用固定的事件模式,无法适应复杂多变的真实场景。此外,大型语言模型虽然具备潜力,但容易产生模式幻觉,且上下文窗口有限,难以有效处理大规模模式选择问题。

核心思路:ASEE的核心思路是将模式选择和事件抽取过程解耦,并利用检索增强生成来提升模式选择的准确性和灵活性。具体来说,首先对事件模式进行释义,然后通过检索模块从海量模式中选择最相关的模式,最后利用大型语言模型生成目标事件结构。这种方法能够有效缓解模式幻觉问题,并提高事件抽取的准确性。

技术框架:ASEE框架主要包含三个模块:模式释义模块、模式检索模块和事件生成模块。首先,模式释义模块将原始事件模式转化为多种不同的表达形式,以增加模式的多样性。然后,模式检索模块根据输入文本,从释义后的模式库中检索出最相关的模式。最后,事件生成模块利用检索到的模式和输入文本,生成目标事件结构。

关键创新:ASEE的关键创新在于将模式释义和检索增强生成相结合,实现了自适应的模式选择和事件抽取。与传统的固定模式方法相比,ASEE能够根据输入文本动态选择最合适的模式,从而提高了事件抽取的准确性和鲁棒性。此外,ASEE还构建了MD-SEE基准,为事件抽取领域的研究提供了新的评估标准。

关键设计:模式释义模块可以使用多种方法实现,例如基于规则的方法、基于模板的方法或基于神经网络的方法。模式检索模块可以使用向量相似度搜索或关键词匹配等技术。事件生成模块可以使用序列到序列模型或基于提示学习的方法。具体的参数设置和网络结构需要根据具体的数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在MD-SEE基准测试中,ASEE框架在多个数据集上取得了显著的性能提升。实验结果表明,ASEE能够有效缓解模式幻觉问题,并提高事件抽取的准确性。与现有基线方法相比,ASEE在不同领域、复杂程度和语言设置的数据集上均表现出更强的适应性。

🎯 应用场景

ASEE框架可应用于信息抽取、知识图谱构建、舆情分析等领域。通过自适应地选择事件模式,可以更准确地从海量文本数据中提取事件信息,为下游应用提供高质量的数据支持。该研究成果有助于提升机器理解自然语言的能力,并推动人工智能在各个领域的应用。

📄 摘要(原文)

Event extraction (EE) is a fundamental task in natural language processing (NLP) that involves identifying and extracting event information from unstructured text. Effective EE in real-world scenarios requires two key steps: selecting appropriate schemas from hundreds of candidates and executing the extraction process. Existing research exhibits two critical gaps: (1) the rigid schema fixation in existing pipeline systems, and (2) the absence of benchmarks for evaluating joint schema matching and extraction. Although large language models (LLMs) offer potential solutions, their schema hallucination tendencies and context window limitations pose challenges for practical deployment. In response, we propose Adaptive Schema-aware Event Extraction (ASEE), a novel paradigm combining schema paraphrasing with schema retrieval-augmented generation. ASEE adeptly retrieves paraphrased schemas and accurately generates targeted structures. To facilitate rigorous evaluation, we construct the Multi-Dimensional Schema-aware Event Extraction (MD-SEE) benchmark, which systematically consolidates 12 datasets across diverse domains, complexity levels, and language settings. Extensive evaluations on MD-SEE show that our proposed ASEE demonstrates strong adaptability across various scenarios, significantly improving the accuracy of event extraction.