Small Language Model Makes an Effective Long Text Extractor
作者: Yelin Chen, Fanjin Zhang, Jie Tang
分类: cs.CL, cs.AI
发布日期: 2025-02-11
备注: AAAI'25, 9 pages, 1 appendix pages
🔗 代码/项目: GITHUB
💡 一句话要点
提出SeNER,一种轻量级长文本实体抽取方法,显著提升抽取精度并降低内存占用。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 命名实体识别 长文本处理 实体抽取 注意力机制 轻量级模型
📋 核心要点
- 现有NER方法在处理长文本实体抽取时,面临计算冗余、内存占用高以及长span生成困难等挑战。
- SeNER通过双向箭头注意力和LogN-Scaling有效嵌入长文本,并利用BiSPA机制减少冗余计算。
- 实验结果表明,SeNER在长NER数据集上取得了SOTA的提取精度,并降低了GPU内存的使用。
📝 摘要(中文)
命名实体识别(NER)是自然语言处理(NLP)中的一个基本问题。然而,从长文本(例如,主页)中提取更长的实体跨度(例如,奖项)的任务很少被探索。现有的NER方法主要分为两类:基于span的方法和基于生成的方法。基于span的方法需要枚举所有可能的token-pair spans,然后对每个span进行分类,导致大量的冗余计算和过度的GPU内存使用。相比之下,基于生成的方法涉及提示或微调大型语言模型(LLM)以适应下游NER任务。然而,这些方法在准确生成更长的span方面存在困难,并且通常需要大量的时间成本才能进行有效的微调。为了解决这些挑战,本文提出了一种轻量级的基于span的NER方法,称为SeNER,它结合了双向箭头注意力机制以及[CLS] token上的LogN-Scaling,以有效地嵌入长文本,并包含一种新颖的双向滑动窗口加号形状注意力(BiSPA)机制,以显著减少冗余的候选token-pair spans,并同时建模token-pair spans之间的交互。大量的实验表明,我们的方法在三个长NER数据集上实现了最先进的提取精度,并且能够以GPU内存友好的方式从长文本中提取实体。
🔬 方法详解
问题定义:论文旨在解决长文本中长实体span的抽取问题。现有基于span的方法需要枚举所有可能的token pair,计算量巨大,内存消耗高;基于生成的方法难以准确生成长span,且微调成本高。
核心思路:论文的核心思路是设计一种轻量级的span-based NER模型,通过减少冗余计算和有效建模token pair之间的交互,从而提高长文本实体抽取的精度和效率。
技术框架:SeNER模型主要包含以下几个部分:1) 使用双向箭头注意力机制和LogN-Scaling来嵌入长文本,捕获上下文信息;2) 引入双向滑动窗口加号形状注意力(BiSPA)机制,减少需要考虑的候选token pair数量,降低计算复杂度;3) 使用分类器对候选span进行分类,判断是否为实体。
关键创新:论文的关键创新在于BiSPA机制,它通过滑动窗口和加号形状的注意力模式,在减少计算量的同时,能够有效地建模token pair之间的交互关系,从而提高实体抽取的准确率。此外,LogN-Scaling在长文本嵌入中也起到了重要作用。
关键设计:BiSPA机制的具体实现包括滑动窗口的大小、加号形状的连接方式等。LogN-Scaling的具体实现方式未知,可能涉及到对注意力权重的调整。损失函数未知,可能采用交叉熵损失函数。
🖼️ 关键图片
📊 实验亮点
SeNER在三个长NER数据集上取得了state-of-the-art的提取精度,证明了其在长文本实体抽取方面的有效性。同时,该方法具有GPU内存友好的特点,使其能够在资源有限的环境下进行部署和应用。具体的性能提升数据未知,需要参考论文原文。
🎯 应用场景
该研究成果可应用于信息抽取、知识图谱构建、简历解析、网页内容分析等领域,尤其是在需要从大量文本中提取特定实体信息的场景下,具有重要的应用价值。例如,可以用于自动提取学术主页上的研究成果、奖励信息等。
📄 摘要(原文)
Named Entity Recognition (NER) is a fundamental problem in natural language processing (NLP). However, the task of extracting longer entity spans (e.g., awards) from extended texts (e.g., homepages) is barely explored. Current NER methods predominantly fall into two categories: span-based methods and generation-based methods. Span-based methods require the enumeration of all possible token-pair spans, followed by classification on each span, resulting in substantial redundant computations and excessive GPU memory usage. In contrast, generation-based methods involve prompting or fine-tuning large language models (LLMs) to adapt to downstream NER tasks. However, these methods struggle with the accurate generation of longer spans and often incur significant time costs for effective fine-tuning. To address these challenges, this paper introduces a lightweight span-based NER method called SeNER, which incorporates a bidirectional arrow attention mechanism coupled with LogN-Scaling on the [CLS] token to embed long texts effectively, and comprises a novel bidirectional sliding-window plus-shaped attention (BiSPA) mechanism to reduce redundant candidate token-pair spans significantly and model interactions between token-pair spans simultaneously. Extensive experiments demonstrate that our method achieves state-of-the-art extraction accuracy on three long NER datasets and is capable of extracting entities from long texts in a GPU-memory-friendly manner. Code: https://github.com/THUDM/scholar-profiling/tree/main/sener