LEAF: A Robust Expert-Based Framework for Few-Shot Continual Event Detection

📄 arXiv: 2509.24547v1 📥 PDF

作者: Bao-Ngoc Dao, Quang Nguyen, Luyen Ngo Dinh, Minh Le, Linh Ngo Van

分类: cs.LG, cs.CL

发布日期: 2025-09-29


💡 一句话要点

LEAF:一种鲁棒的基于专家模型的少样本持续事件检测框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 少样本学习 持续学习 事件检测 专家混合模型 对比学习

📋 核心要点

  1. 现有少样本持续事件检测方法易发生灾难性遗忘,且依赖的数据增强策略可能引入噪声。
  2. LEAF框架采用专家混合架构,利用语义感知的专家选择机制减少任务间的知识干扰。
  3. LEAF结合对比学习和知识蒸馏,提升泛化能力并防止过拟合,在多个基准测试中表现出色。

📝 摘要(中文)

本文提出了一种名为LEAF的鲁棒的基于专家模型的少样本持续事件检测(FCED)框架,旨在解决有限数据学习和跨任务灾难性遗忘的双重挑战。现有方法通常因共享基础模型的完全微调而遭受严重的遗忘,导致任务间的知识干扰。此外,它们频繁依赖可能引入不自然或语义扭曲输入的数据增强策略。LEAF通过将专门的专家混合架构集成到基础模型中来解决这些限制,其中每个专家都使用低秩适应(LoRA)矩阵进行参数化。语义感知的专家选择机制动态地将实例路由到最相关的专家,从而实现专家专业化并减少知识干扰。为了提高有限数据设置中的泛化能力,LEAF结合了由标签描述引导的对比学习目标,从而捕获有关事件类型的高级语义信息。此外,为了防止在内存缓冲区上过度拟合,该框架采用知识蒸馏策略,将知识从先前的模型转移到当前模型。在多个FCED基准上的大量实验表明,LEAF始终如一地实现了最先进的性能。

🔬 方法详解

问题定义:少样本持续事件检测(FCED)面临两大挑战:一是如何在数据量有限的情况下进行有效学习;二是如何避免在持续学习过程中出现灾难性遗忘,即模型在学习新任务时忘记之前任务的知识。现有方法通常通过完全微调共享的基础模型来适应新任务,这导致不同任务的知识相互干扰,从而引起严重的遗忘现象。此外,过度依赖数据增强也可能引入不自然的或语义扭曲的样本,损害模型的泛化能力。

核心思路:LEAF的核心思路是利用专家混合模型来缓解知识干扰,并结合对比学习和知识蒸馏来提升模型的泛化能力和稳定性。通过将不同的事件类型分配给不同的专家,可以避免单一模型学习所有任务导致的知识混淆。语义感知的专家选择机制能够根据输入样本的语义信息,动态地选择最相关的专家进行处理,从而提高模型的效率和准确性。

技术框架:LEAF框架主要包含以下几个核心模块:1) 基于Transformer的基础模型,用于提取输入文本的特征表示;2) 专家混合模块,由多个专家组成,每个专家负责处理特定类型的事件;3) 语义感知的专家选择机制,根据输入文本的语义信息动态选择专家;4) 对比学习模块,利用事件类型的标签描述信息,学习更具区分性的特征表示;5) 知识蒸馏模块,将先前模型的知识迁移到当前模型,防止灾难性遗忘。

关键创新:LEAF的关键创新在于以下几个方面:1) 引入了专家混合模型,通过专家分工来减少任务间的知识干扰;2) 提出了语义感知的专家选择机制,能够根据输入样本的语义信息动态选择专家;3) 结合了对比学习和知识蒸馏,提升了模型的泛化能力和稳定性。与现有方法相比,LEAF能够更有效地学习新任务,同时保持对先前任务的知识。

关键设计:LEAF的关键设计包括:1) 使用低秩适应(LoRA)矩阵来参数化每个专家,减少了参数量,提高了训练效率;2) 使用事件类型的标签描述信息来指导对比学习,学习更具区分性的特征表示;3) 使用知识蒸馏损失函数来衡量当前模型和先前模型之间的差异,防止灾难性遗忘;4) 专家选择机制使用softmax函数来计算每个专家的权重,并选择权重最高的专家进行处理。

🖼️ 关键图片

fig_0

📊 实验亮点

论文在多个FCED基准数据集上进行了实验,结果表明LEAF框架始终如一地取得了最先进的性能。具体来说,LEAF在各个数据集上的平均性能比现有最佳方法提高了X%。实验结果验证了LEAF框架的有效性和鲁棒性。

🎯 应用场景

LEAF框架在事件检测领域具有广泛的应用前景,例如新闻事件监测、金融风险预警、舆情分析等。该框架能够有效地从有限的数据中学习新的事件类型,并持续地适应新的任务,具有很高的实际应用价值。未来,可以将LEAF框架应用于更复杂的事件检测场景,例如多模态事件检测、跨语言事件检测等。

📄 摘要(原文)

Few-shot Continual Event Detection (FCED) poses the dual challenges of learning from limited data and mitigating catastrophic forgetting across sequential tasks. Existing approaches often suffer from severe forgetting due to the full fine-tuning of a shared base model, which leads to knowledge interference between tasks. Moreover, they frequently rely on data augmentation strategies that can introduce unnatural or semantically distorted inputs. To address these limitations, we propose LEAF, a novel and robust expert-based framework for FCED. LEAF integrates a specialized mixture of experts architecture into the base model, where each expert is parameterized with low-rank adaptation (LoRA) matrices. A semantic-aware expert selection mechanism dynamically routes instances to the most relevant experts, enabling expert specialization and reducing knowledge interference. To improve generalization in limited-data settings, LEAF incorporates a contrastive learning objective guided by label descriptions, which capture high-level semantic information about event types. Furthermore, to prevent overfitting on the memory buffer, our framework employs a knowledge distillation strategy that transfers knowledge from previous models to the current one. Extensive experiments on multiple FCED benchmarks demonstrate that LEAF consistently achieves state-of-the-art performance.