Enhancing Event Reasoning in Large Language Models through Instruction Fine-Tuning with Semantic Causal Graphs
作者: Mazal Bethany, Emet Bethany, Brandon Wherry, Cho-Yu Chiang, Nishant Vishwamitra, Anthony Rios, Peyman Najafirad
分类: cs.CL, cs.LG
发布日期: 2024-08-30
💡 一句话要点
提出基于语义因果图指令微调的大语言模型事件推理方法,显著提升事件检测性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 事件检测 大语言模型 指令微调 语义因果图 低秩适应 文本推理 因果关系
📋 核心要点
- 现有大语言模型在事件检测中表现不佳,主要原因是缺乏考虑事件触发词和事件类型之间因果关系的训练方法。
- 论文提出利用语义因果图(SCG)捕获文本中的因果关系和上下文信息,并设计SCG指令进行微调。
- 实验结果表明,该方法在事件触发词分类上优于标准指令微调35.69%,且微调后的Mistral 7B模型优于GPT-4。
📝 摘要(中文)
事件检测和文本推理已成为各个领域中的关键应用。尽管大语言模型(LLM)最近在推理能力方面取得了显著进展,但它们在事件检测方面仍然面临挑战,这主要是由于缺乏考虑事件触发词和类型之间因果关系的训练方法。为了解决这个问题,我们提出了一种新颖的指令微调LLM用于事件检测的方法。我们的方法引入了语义因果图(SCG)来捕获文本中的因果关系和上下文信息。基于SCG,我们提出了SCG指令,通过关注事件触发词及其与事件类型的关系来微调LLM,并采用低秩适应(LoRA)来帮助保持LLM的通用推理能力。评估表明,使用SCG指令训练LLM在事件触发词分类方面比标准指令微调平均高出35.69%。值得注意的是,我们微调后的Mistral 7B模型在关键事件检测指标上也优于GPT-4,在事件触发词识别方面平均高出31.01%,在事件触发词分类方面高出37.40%,在事件分类方面高出16.43%。我们分析了通用能力的保留情况,观察到在六个基准测试中平均仅下降了2.03个点。这项综合研究调查了各种数据集、提示策略和训练方法下,多个LLM在事件检测任务中的表现。
🔬 方法详解
问题定义:论文旨在解决大语言模型在事件检测任务中,由于缺乏对事件触发词和事件类型之间因果关系的学习,导致性能不足的问题。现有方法通常忽略了事件之间的语义关联和因果依赖,使得模型难以准确识别和分类事件。
核心思路:论文的核心思路是利用语义因果图(SCG)显式地建模文本中事件触发词之间的因果关系和上下文信息。通过构建SCG,模型可以学习到事件之间的依赖关系,从而提高事件检测的准确性。此外,通过设计基于SCG的指令微调策略,引导模型关注事件触发词及其与事件类型的关系。
技术框架:整体框架包括以下几个主要步骤:1) 构建语义因果图(SCG):从文本中提取事件触发词,并根据上下文信息和先验知识构建SCG,SCG节点表示事件触发词,边表示事件之间的因果关系。2) 生成SCG指令:基于SCG,生成用于指令微调的训练数据,指令包含事件触发词、事件类型以及它们之间的关系。3) 指令微调:使用生成的SCG指令微调大语言模型,使其学习事件之间的因果关系和上下文信息。4) 模型评估:在事件检测数据集上评估微调后的模型性能。
关键创新:论文的关键创新在于:1) 提出了语义因果图(SCG)来显式地建模事件之间的因果关系和上下文信息。2) 设计了基于SCG的指令微调策略,引导模型学习事件触发词及其与事件类型的关系。与现有方法相比,该方法更加关注事件之间的语义关联和因果依赖,从而提高了事件检测的准确性。
关键设计:论文采用了低秩适应(LoRA)技术进行微调,以避免灾难性遗忘,并保持大语言模型的通用推理能力。具体来说,LoRA通过在预训练模型的权重矩阵上添加低秩矩阵来实现微调,从而减少了需要训练的参数数量。此外,论文还探索了不同的提示策略和训练方法,以进一步提高模型性能。损失函数方面,采用标准的交叉熵损失函数进行训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用SCG指令微调的大语言模型在事件触发词分类方面比标准指令微调平均高出35.69%。更重要的是,微调后的Mistral 7B模型在事件触发词识别、事件触发词分类和事件分类等关键指标上,均优于GPT-4,分别高出31.01%、37.40%和16.43%。同时,通用能力仅下降了2.03个点,表明该方法在提升事件检测性能的同时,能够较好地保持模型的通用性。
🎯 应用场景
该研究成果可广泛应用于信息抽取、舆情分析、金融风险评估、安全事件检测等领域。通过提升事件检测的准确性,可以帮助人们更好地理解文本信息,及时发现潜在风险,并做出更明智的决策。未来,该方法有望应用于更复杂的事件推理任务,例如事件预测和因果关系分析。
📄 摘要(原文)
Event detection and text reasoning have become critical applications across various domains. While LLMs have recently demonstrated impressive progress in reasoning abilities, they often struggle with event detection, particularly due to the absence of training methods that consider causal relationships between event triggers and types. To address this challenge, we propose a novel approach for instruction fine-tuning LLMs for event detection. Our method introduces Semantic Causal Graphs (SCGs) to capture both causal relationships and contextual information within text. Building off of SCGs, we propose SCG Instructions for fine-tuning LLMs by focusing on event triggers and their relationships to event types, and employ Low-Rank Adaptation (LoRA) to help preserve the general reasoning abilities of LLMs. Our evaluations demonstrate that training LLMs with SCG Instructions outperforms standard instruction fine-tuning by an average of 35.69\% on Event Trigger Classification. Notably, our fine-tuned Mistral 7B model also outperforms GPT-4 on key event detection metrics by an average of 31.01\% on Event Trigger Identification, 37.40\% on Event Trigger Classification, and 16.43\% on Event Classification. We analyze the retention of general capabilities, observing only a minimal average drop of 2.03 points across six benchmarks. This comprehensive study investigates multiple LLMs for the event detection task across various datasets, prompting strategies, and training approaches.