Pcc-tuning: Breaking the Contrastive Learning Ceiling in Semantic Textual Similarity

📄 arXiv: 2406.09790v2 📥 PDF

作者: Bowen Zhang, Chunping Li

分类: cs.CL

发布日期: 2024-06-14 (更新: 2024-10-06)

备注: Accepted by EMNLP 2024 (Main)


💡 一句话要点

Pcc-tuning:突破语义文本相似度对比学习的性能上限

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 语义文本相似度 对比学习 Pearson相关系数 句子表示 微调 预训练语言模型 损失函数

📋 核心要点

  1. 现有语义文本相似度方法基于对比学习,在多个STS基准测试中性能提升停滞,难以突破86.5的平均Spearman相关系数。
  2. 论文提出Pcc-tuning方法,使用Pearson相关系数作为损失函数,在对比学习的基础上进一步优化模型,突破性能瓶颈。
  3. 实验结果表明,Pcc-tuning仅需少量精细标注样本,即可显著超越现有最佳方法,实现性能提升。

📝 摘要(中文)

语义文本相似度(STS)是计算语言学中的一个关键研究方向,也是衡量嵌入模型编码能力的重要指标。在预训练语言模型和对比学习的推动下,领先的句子表示方法在SentEval的七个STS基准测试中,平均Spearman相关系数得分已达到约86。然而,进一步的进展变得越来越小,没有现有方法在这些任务上获得高于86.5的平均分数。本文对这种现象进行了深入分析,并得出结论:对比学习下Spearman相关系数得分的上限为87.5。为了超越这个上限,我们提出了一种名为Pcc-tuning的创新方法,该方法采用Pearson相关系数作为损失函数,以在对比学习的基础上进一步提升模型性能。实验结果表明,Pcc-tuning只需少量精细标注的样本,就能显著超越以往最先进的策略。

🔬 方法详解

问题定义:论文旨在解决语义文本相似度(STS)任务中,基于对比学习的方法性能提升受限的问题。现有方法在SentEval等基准测试中,Spearman相关系数得分难以突破86.5,表明对比学习可能存在性能上限。

核心思路:论文的核心思路是利用Pearson相关系数(PCC)作为损失函数,对模型进行微调(Pcc-tuning)。PCC能够直接衡量两个向量之间的线性相关性,更直接地优化句子表示的相似度,从而突破对比学习的性能上限。

技术框架:Pcc-tuning方法在预训练语言模型的基础上,首先使用对比学习进行初步训练,然后使用PCC作为损失函数进行微调。整体流程包括:1) 使用预训练语言模型(如BERT)编码句子;2) 使用对比学习目标(如InfoNCE)训练模型,得到初步的句子表示;3) 使用少量标注数据,以PCC作为损失函数微调模型,优化句子表示的相似度。

关键创新:最重要的技术创新点在于使用Pearson相关系数作为损失函数,替代或补充传统的对比学习损失函数。这使得模型能够更直接地优化句子表示的相似度,从而突破对比学习的性能瓶颈。与现有方法的本质区别在于,Pcc-tuning不再依赖对比学习的间接优化,而是直接优化句子表示的线性相关性。

关键设计:Pcc-tuning的关键设计在于PCC损失函数的选择和使用。具体而言,PCC损失函数计算两个句子表示向量之间的Pearson相关系数,并将其作为优化目标。在训练过程中,模型通过最小化负PCC值来最大化句子表示之间的相关性。此外,论文还探索了不同的微调策略和超参数设置,以进一步提升模型性能。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Pcc-tuning方法在SentEval的七个STS基准测试中,显著超越了以往最先进的策略。具体而言,Pcc-tuning在平均Spearman相关系数得分上取得了明显的提升,突破了86.5的性能上限,并且仅需少量精细标注的样本即可实现。例如,在某些数据集上,Pcc-tuning的性能提升超过了1个百分点,证明了其有效性和优越性。

🎯 应用场景

该研究成果可广泛应用于各种需要衡量文本语义相似度的场景,例如信息检索、问答系统、文本聚类、机器翻译评估等。通过提升语义文本相似度模型的性能,可以提高这些应用的准确性和效率,具有重要的实际应用价值和潜在的商业前景。未来,该方法可以进一步扩展到其他自然语言处理任务中,例如文本蕴含识别、文本摘要等。

📄 摘要(原文)

Semantic Textual Similarity (STS) constitutes a critical research direction in computational linguistics and serves as a key indicator of the encoding capabilities of embedding models. Driven by advances in pre-trained language models and contrastive learning, leading sentence representation methods have reached an average Spearman's correlation score of approximately 86 across seven STS benchmarks in SentEval. However, further progress has become increasingly marginal, with no existing method attaining an average score higher than 86.5 on these tasks. This paper conducts an in-depth analysis of this phenomenon and concludes that the upper limit for Spearman's correlation scores under contrastive learning is 87.5. To transcend this ceiling, we propose an innovative approach termed Pcc-tuning, which employs Pearson's correlation coefficient as a loss function to refine model performance beyond contrastive learning. Experimental results demonstrate that Pcc-tuning can markedly surpass previous state-of-the-art strategies with only a minimal amount of fine-grained annotated samples.