Span Modeling for Idiomaticity and Figurative Language Detection with Span Contrastive Loss
作者: Blake Matheny, Phuong Minh Nguyen, Minh Le Nguyen
分类: cs.CL
发布日期: 2026-03-24
💡 一句话要点
提出基于Span对比损失的跨度建模方法,用于成语和比喻语言检测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 成语检测 比喻语言检测 Span建模 对比学习 BERT RoBERTa Span Contrastive Loss Hard Negative Reweighting
📋 核心要点
- 现有语言模型在处理成语等非组合型多词表达时面临挑战,因为其含义并非各词含义的简单叠加。
- 论文提出结合slot loss和span contrastive loss (SCL) 的微调方法,增强模型对成语跨度的识别能力。
- 实验结果表明,该方法在成语检测任务上取得了state-of-the-art的序列准确率,并验证了SCL的有效性。
📝 摘要(中文)
本文提出了一种用于成语和比喻语言检测的模型,该模型基于BERT和RoBERTa,并结合了slot loss和span contrastive loss (SCL) 以及hard negative reweighting进行微调,从而提高了成语检测的性能,在现有数据集上实现了最先进的序列准确率。对比消融研究表明了SCL的有效性和泛化能力。此外,本文还提出了F1和序列准确率(SA)的几何平均数,用于综合评估模型的跨度感知能力和整体性能。
🔬 方法详解
问题定义:论文旨在解决成语和比喻语言检测问题,特别是针对那些非组合型的多词表达(如成语)。现有方法,如大型语言模型,虽然可以通过扩大词汇量来缓解这个问题,但通常需要one-shot或few-shot prompting或指令微调才能有效识别。基于BERT或LSTM的微调方法虽然取得了一定的成果,但仍有提升空间。
核心思路:论文的核心思路是利用span contrastive loss (SCL) 来增强模型对成语或比喻语言跨度的感知能力。通过对比正负样本,使模型能够更好地区分具有成语意义的span和不具有成语意义的span。Hard negative reweighting进一步提升了训练效果,使模型更加关注难以区分的负样本。
技术框架:该模型基于预训练的BERT或RoBERTa模型,并在其基础上进行微调。微调过程中,模型同时使用slot loss和span contrastive loss (SCL)。Slot loss用于优化模型对句子中每个token的分类,而SCL则用于优化模型对整个span的表示。Hard negative reweighting被应用于SCL,以提高训练效率。
关键创新:关键创新在于span contrastive loss (SCL) 的引入。与传统的token级别的loss不同,SCL直接优化span的表示,使得模型能够更好地捕捉成语或比喻语言的整体语义。此外,hard negative reweighting也是一个重要的创新点,它使得模型能够更加关注那些容易混淆的负样本,从而提高模型的判别能力。
关键设计:SCL的具体设计包括正负样本的构建方式和对比损失函数的选择。正样本通常是包含成语的span,而负样本则是从句子中随机抽取的span。对比损失函数的目标是使得正样本的表示尽可能接近,而负样本的表示尽可能远离。Hard negative reweighting的具体实现方式是根据负样本的loss值对负样本进行加权,loss值越大的负样本,其权重也越大。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该模型在成语检测任务上取得了state-of-the-art的序列准确率。消融实验证明了span contrastive loss (SCL) 的有效性和泛化能力。此外,论文还提出了F1和序列准确率(SA)的几何平均数,用于综合评估模型的跨度感知能力和整体性能,为后续研究提供了一个新的评估指标。
🎯 应用场景
该研究成果可应用于自然语言理解、机器翻译、情感分析等领域。例如,在机器翻译中,可以帮助模型更准确地翻译成语和比喻语言,提高翻译质量。在情感分析中,可以帮助模型更准确地识别文本中的情感倾向,因为成语和比喻语言常常带有强烈的情感色彩。未来,该方法可以扩展到其他类型的多词表达识别任务中。
📄 摘要(原文)
The category of figurative language contains many varieties, some of which are non-compositional in nature. This type of phrase or multi-word expression (MWE) includes idioms, which represent a single meaning that does not consist of the sum of its words. For language models, this presents a unique problem due to tokenization and adjacent contextual embeddings. Many large language models have overcome this issue with large phrase vocabulary, though immediate recognition frequently fails without one- or few-shot prompting or instruction finetuning. The best results have been achieved with BERT-based or LSTM finetuning approaches. The model in this paper contains one such variety. We propose BERT- and RoBERTa-based models finetuned with a combination of slot loss and span contrastive loss (SCL) with hard negative reweighting to improve idiomaticity detection, attaining state of the art sequence accuracy performance on existing datasets. Comparative ablation studies show the effectiveness of SCL and its generalizability. The geometric mean of F1 and sequence accuracy (SA) is also proposed to assess a model's span awareness and general performance together.