One2set + Large Language Model: Best Partners for Keyphrase Generation

📄 arXiv: 2410.03421v2 📥 PDF

作者: Liangying Shao, Liang Zhang, Minlong Peng, Guoqi Ma, Hao Yue, Mingming Sun, Jinsong Su

分类: cs.CL, cs.AI

发布日期: 2024-10-04 (更新: 2024-10-21)

备注: Accepted by EMNLP 2024 Main Conference


💡 一句话要点

提出One2set+LLM框架,通过生成-选择策略提升关键短语生成效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 关键短语生成 大型语言模型 One2set 最优传输 序列标注

📋 核心要点

  1. 现有关键短语生成模型难以兼顾高召回率和高精确率,one2set范式存在监督信号分配不当问题,LLM选择方法易产生冗余。
  2. 提出生成-选择框架,利用one2set模型生成候选短语,再用LLM进行选择,并优化监督信号分配和选择策略。
  3. 实验结果表明,该框架显著优于现有模型,尤其在缺席关键短语预测方面表现突出,提升了关键短语生成的整体性能。

📝 摘要(中文)

关键短语生成(KPG)旨在自动生成代表给定文档核心概念的短语集合。KPG的主流范式包括one2seq和one2set。最近,将大型语言模型(LLM)应用于KPG的兴趣日益浓厚。我们的初步实验表明,单个模型很难在召回率和精确率方面都表现出色。进一步的分析表明:1) one2set范式具有高召回率的优势,但在训练过程中存在不适当的监督信号分配问题;2) LLM在关键短语选择方面功能强大,但现有的选择方法通常会进行冗余选择。鉴于这些观察结果,我们引入了一个生成-选择框架,将KPG分解为两个步骤,其中我们采用基于one2set的模型作为生成器来生成候选短语,然后使用LLM作为选择器从这些候选短语中选择关键短语。特别地,我们对生成器和选择器进行了两项重要改进:1) 我们设计了一种基于最优传输的分配策略来解决上述不适当的分配问题;2) 我们将关键短语选择建模为序列标注任务,以减轻冗余选择。在多个基准数据集上的实验结果表明,我们的框架显著优于最先进的模型,尤其是在缺席关键短语预测方面。

🔬 方法详解

问题定义:论文旨在解决关键短语生成任务中,现有方法难以同时达到高召回率和高精确率的问题。One2set模型虽然召回率高,但在训练时存在监督信号分配不当的问题,导致模型学习效率降低。而直接使用LLM进行关键短语选择时,容易产生冗余选择,影响生成质量。

核心思路:论文的核心思路是将关键短语生成任务分解为两个阶段:生成阶段和选择阶段。首先使用改进的One2set模型生成尽可能多的候选关键短语,保证高召回率;然后利用LLM从候选短语中选择最合适的关键短语,提高精确率。通过这种分而治之的策略,充分发挥两种模型的优势,弥补彼此的不足。

技术框架:整体框架包含两个主要模块:生成器和选择器。生成器基于One2set模型,负责生成候选关键短语。选择器使用LLM,负责从候选短语中选择最终的关键短语。为了解决One2set模型的监督信号分配问题,论文引入了基于最优传输的分配策略。为了减轻LLM的冗余选择问题,论文将关键短语选择建模为序列标注任务。

关键创新:论文的关键创新在于:1) 提出了生成-选择框架,将关键短语生成任务分解为两个阶段,有效结合了One2set模型和LLM的优势。2) 设计了基于最优传输的分配策略,解决了One2set模型中监督信号分配不当的问题。3) 将关键短语选择建模为序列标注任务,减轻了LLM的冗余选择问题。

关键设计:在生成器方面,采用了基于最优传输的分配策略,具体实现细节未知。在选择器方面,将关键短语选择建模为序列标注任务,具体实现细节未知。损失函数和网络结构等细节未在摘要中提及,具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的One2set+LLM框架在多个基准数据集上显著优于现有最先进的模型,尤其是在缺席关键短语预测方面表现突出。具体的性能数据和提升幅度未知,但可以确定该框架在关键短语生成任务上取得了显著的性能提升。

🎯 应用场景

该研究成果可应用于信息检索、文本摘要、知识图谱构建等领域。通过自动生成高质量的关键短语,可以帮助用户快速了解文档的核心内容,提高信息获取效率。未来,该方法有望应用于更广泛的自然语言处理任务中,例如自动问答、机器翻译等。

📄 摘要(原文)

Keyphrase generation (KPG) aims to automatically generate a collection of phrases representing the core concepts of a given document. The dominant paradigms in KPG include one2seq and one2set. Recently, there has been increasing interest in applying large language models (LLMs) to KPG. Our preliminary experiments reveal that it is challenging for a single model to excel in both recall and precision. Further analysis shows that: 1) the one2set paradigm owns the advantage of high recall, but suffers from improper assignments of supervision signals during training; 2) LLMs are powerful in keyphrase selection, but existing selection methods often make redundant selections. Given these observations, we introduce a generate-then-select framework decomposing KPG into two steps, where we adopt a one2set-based model as generator to produce candidates and then use an LLM as selector to select keyphrases from these candidates. Particularly, we make two important improvements on our generator and selector: 1) we design an Optimal Transport-based assignment strategy to address the above improper assignments; 2) we model the keyphrase selection as a sequence labeling task to alleviate redundant selections. Experimental results on multiple benchmark datasets show that our framework significantly surpasses state-of-the-art models, especially in absent keyphrase prediction.