A Multimodal Text- and Graph-Based Approach for Open-Domain Event Extraction from Documents

作者: Praval Sharma

分类: cs.CL, cs.AI

发布日期: 2026-04-23

💡 一句话要点

提出MODEE，结合图学习与LLM文本表示，解决开放域事件抽取中文档级推理难题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放域事件抽取 图神经网络 大型语言模型 文档级推理 多模态融合

📋 核心要点

现有开放域事件抽取方法忽略了大型语言模型(LLM)的潜力，且缺乏文档级上下文、结构和语义推理能力。
MODEE结合图学习与LLM文本表示，显式建模文档级推理，从而提升开放域事件抽取的性能。
实验结果表明，MODEE在开放域和封闭域事件抽取任务上均优于现有方法，具有良好的泛化能力。

📝 摘要（中文）

事件抽取对于事件理解和分析至关重要，它支持文档摘要和紧急情况下的决策等任务。然而，现有的事件抽取方法存在局限性：(1)封闭域算法仅限于预定义的事件类型，因此很少能推广到未见过的类型；(2)开放域事件抽取算法能够处理不受约束的事件类型，但很大程度上忽略了大型语言模型(LLM)的潜力，尽管它们具有先进的能力。此外，它们没有明确地建模文档级的上下文、结构和语义推理，这对于有效的事件抽取至关重要，但由于“中间丢失”现象和注意力稀释，对于LLM来说仍然具有挑战性。为了解决这些局限性，我们提出了多模态开放域事件抽取MODEE，这是一种新颖的开放域事件抽取方法，它结合了基于图的学习和来自LLM的基于文本的表示，以建模文档级的推理。对大型数据集的实证评估表明，MODEE优于最先进的开放域事件抽取方法，并且可以推广到封闭域事件抽取，在封闭域事件抽取中，它优于现有的算法。

🔬 方法详解

问题定义：论文旨在解决开放域事件抽取任务中，现有方法无法有效利用大型语言模型(LLM)的强大能力，并且缺乏对文档级上下文、结构和语义信息进行建模的问题。现有方法主要存在两个痛点：一是封闭域方法泛化能力差，二是开放域方法对文档级推理能力不足。

核心思路：论文的核心思路是结合图学习和LLM的文本表示，利用图结构来显式地建模文档级的上下文、结构和语义关系，同时利用LLM强大的文本理解能力来提取事件信息。通过多模态融合，弥补现有方法在文档级推理方面的不足。

技术框架：MODEE的整体框架包含以下几个主要模块：1) 文档图构建模块：将文档构建成图结构，节点表示文档中的实体或句子，边表示它们之间的关系。2) LLM文本表示模块：利用预训练的LLM对文档中的文本进行编码，得到文本表示。3) 图学习模块：利用图神经网络(GNN)在文档图上进行学习，融合节点和边的信息，得到节点表示。4) 事件抽取模块：利用节点表示进行事件触发词和事件论元的抽取。

关键创新：MODEE的关键创新在于将图学习和LLM的文本表示相结合，显式地建模文档级的上下文、结构和语义关系。与现有方法相比，MODEE能够更好地利用文档中的全局信息，从而提高事件抽取的准确率。此外，MODEE采用多模态融合的方式，充分利用了文本和图结构的信息，从而提高了模型的鲁棒性。

关键设计：论文中关键的设计包括：1) 文档图的构建方式，例如节点和边的选择，以及边的权重设置。2) 图神经网络的选择和参数设置，例如GCN、GAT等。3) LLM的选择和微调策略，例如BERT、RoBERTa等。4) 多模态融合的方式，例如注意力机制、拼接等。具体的损失函数和网络结构细节在论文中应该有更详细的描述（未知）。

🖼️ 关键图片

📊 实验亮点

论文在大型数据集上进行了实验，结果表明MODEE在开放域事件抽取任务上优于现有的最先进方法。此外，MODEE还能够推广到封闭域事件抽取任务，并且取得了比现有算法更好的性能。具体的性能数据和提升幅度需要在论文中查找（未知）。

🎯 应用场景

MODEE可应用于多个领域，如新闻事件分析、金融风险评估、舆情监控、应急事件管理等。通过自动抽取文档中的事件信息，可以帮助用户快速了解事件的发生、发展和影响，从而做出更明智的决策。该研究的未来影响在于推动开放域事件抽取技术的发展，使其能够更好地应用于实际场景。

📄 摘要（原文）

Event extraction is essential for event understanding and analysis. It supports tasks such as document summarization and decision-making in emergency scenarios. However, existing event extraction approaches have limitations: (1) closed-domain algorithms are restricted to predefined event types and thus rarely generalize to unseen types and (2) open-domain event extraction algorithms, capable of handling unconstrained event types, have largely overlooked the potential of large language models (LLMs) despite their advanced abilities. Additionally, they do not explicitly model document-level contextual, structural, and semantic reasoning, which are crucial for effective event extraction but remain challenging for LLMs due to lost-in-the-middle phenomenon and attention dilution. To address these limitations, we propose multimodal open-domain event extraction, MODEE , a novel approach for open-domain event extraction that combines graph-based learning with text-based representation from LLMs to model document-level reasoning. Empirical evaluations on large datasets demonstrate that MODEE outperforms state-of-the-art open-domain event extraction approaches and can be generalized to closed-domain event extraction, where it outperforms existing algorithms.

A Multimodal Text- and Graph-Based Approach for Open-Domain Event Extraction from Documents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理