Attention Expansion: Enhancing Keyphrase Extraction from Long Documents with Attention-Augmented Contextualized Embeddings
作者: Roberto Martínez-Cruz, Alvaro J. López-López, José Portela
分类: cs.CL, cs.AI
发布日期: 2026-06-09
💡 一句话要点
提出注意力扩展机制以解决长文档关键短语提取问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 关键短语提取 长文档处理 预训练语言模型 注意力机制 信息检索 自然语言处理 上下文增强
📋 核心要点
- 长文档的关键短语提取面临挑战,现有方法无法有效捕捉分散在不同部分的关键信息。
- 提出注意力扩展机制,通过增强PLM标记表示,利用周围的上下文信息来扩展有效上下文范围。
- 实验结果显示,注意力扩展在多种PLM基础上均能提升关键短语提取性能,超越现有模型。
📝 摘要(中文)
预训练语言模型在关键短语提取中表现出色,然而长文档的关键短语提取仍然面临挑战,因为重要的关键短语证据可能分散在文档的不同部分,无法在大多数模型的有限上下文窗口中共同捕捉。虽然长上下文的大型语言模型可以处理更广泛的文本上下文,但其计算成本限制了其在高效和高吞吐量关键短语提取中的实用性。为了解决这一限制,本文提出了一种注意力扩展机制,通过使用预训练的词嵌入增强PLM的标记表示,扩展了PLM基础的关键短语提取模型的有效上下文范围。实验结果表明,注意力扩展在所有评估设置中均能显著提升关键短语提取性能,超越了现有的最先进模型,并在F1分数上取得了显著改善。
🔬 方法详解
问题定义:本文旨在解决长文档关键短语提取中的信息分散问题,现有方法在有限上下文窗口内无法有效捕捉重要信息,导致提取性能不足。
核心思路:提出的注意力扩展机制通过引入周围上下文的预训练词嵌入,增强PLM的标记表示,从而扩展有效的上下文范围,避免了对整个文档的注意力计算。
技术框架:整体架构包括PLM基础模型和注意力扩展模块,后者负责整合来自上下文块的信息,形成更丰富的标记表示。模型通过两种训练机制进行训练,适用于不同的基准语料库。
关键创新:注意力扩展机制是本文的核心创新,它通过引入外部上下文信息,提供了补充信息,而不仅仅是弥补输入长度的不足,与现有方法相比具有本质区别。
关键设计:在模型设计中,采用了多种PLM骨干网络,包括通用、科学、任务特定和长上下文编码器,使用了多种训练策略和损失函数,以确保模型在不同领域的适应性和性能提升。
🖼️ 关键图片
📊 实验亮点
实验结果表明,注意力扩展机制在五个PLM基础上均显著提升了关键短语提取性能,F1分数的提升幅度超过了现有最先进模型,尤其在领域特定和任务专用模型中表现尤为突出,验证了该方法的有效性和实用性。
🎯 应用场景
该研究的潜在应用领域包括科学文献分析、新闻摘要生成和信息检索等。通过提高长文档中的关键短语提取能力,能够帮助研究人员和行业专家更高效地获取关键信息,提升信息处理的效率和准确性。未来,该机制可能在更多自然语言处理任务中发挥重要作用。
📄 摘要(原文)
Pre-trained language models (PLMs) have achieved strong performance in keyphrase extraction (KPE), largely due to their ability to generate rich contextualized representations. However, long-document KPE remains challenging because salient keyphrase evidence may be scattered across distant document sections that cannot be jointly captured within the limited context window of most PLMs. Although long-context large language models (LLMs) can process broader textual contexts, their computational cost limits their practicality for efficient and high-throughput KPE. To overcome this limitation, we propose an attention expansion mechanism that augments PLM token representations with information from surrounding out-of-context chunks using pre-trained word embeddings. The proposed mechanism expands the effective contextual scope of PLM-based KPE models without requiring full-document attention or expensive LLM-based inference. We evaluate our approach across five PLM backbones, including general-purpose, scientific, task-specific, and long-context encoders, using two training regimes and five benchmark corpora from scientific and news domains. Experimental results demonstrate that attention expansion consistently enhances KPE performance across all evaluation settings, outperforming state-of-the-art models and yielding notable improvements in F1 score. The improvements extend to domain-specific, task-specialized, and native long-context models, showing that the proposed mechanism provides complementary information rather than merely compensating for limited input length. These results establish attention expansion as an efficient and effective strategy for long-document KPE.