JTCSE: Joint Tensor-Modulus Constraints and Cross-Attention for Unsupervised Contrastive Learning of Sentence Embeddings

📄 arXiv: 2505.02366v2 📥 PDF

作者: Tianyu Zong, Hongzhu Yi, Bingkang Shi, Yuanxiang Wang, Jungang Xu

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-05 (更新: 2025-05-07)


💡 一句话要点

提出JTCSE框架,通过联合张量模约束和交叉注意力提升无监督对比学习句向量表示

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无监督对比学习 句子嵌入 张量模约束 交叉注意力 语义文本相似度 BERT 孪生塔模型

📋 核心要点

  1. 现有对比学习方法忽略了语义表示张量的模特征,导致对比学习不够充分。
  2. 提出JTCSE框架,通过张量模约束加强正样本对齐,并利用交叉注意力增强模型对CLS token的关注。
  3. 实验结果表明,JTCSE在语义文本相似度和零样本下游任务上均优于现有基线,达到SOTA。

📝 摘要(中文)

无监督对比学习已成为自然语言处理领域的研究热点。现有工作通常侧重于约束对比学习中正负样本在高维语义空间中的方向分布,但语义表示张量同时具有模和方向特征,现有工作忽略了表示的模特征,导致对比学习不充分。因此,我们首先提出了一个旨在对语义表示张量施加模约束的训练目标,以加强对比学习中正样本之间的对齐。其次,类BERT模型存在注意力下沉现象,导致对聚合语义信息的CLS token的关注不足。为此,我们提出了孪生塔集成模型之间的交叉注意力结构,以增强模型对CLS token的关注并优化CLS Pooling的质量。结合以上两个动机,我们提出了一个新的联合张量表示模约束和交叉注意力无监督对比学习句嵌入表示框架JTCSE,我们在七个语义文本相似度计算任务中对其进行了评估,实验结果表明,JTCSE的孪生塔集成模型和单塔蒸馏模型优于其他基线,成为当前的SOTA。此外,我们进行了广泛的零样本下游任务评估,结果表明JTCSE在超过130个任务上的整体表现优于其他基线。

🔬 方法详解

问题定义:现有无监督对比学习方法在学习句子嵌入时,主要关注样本在高维语义空间中的方向分布,而忽略了语义表示张量本身所具有的模长信息。这种忽略导致对比学习过程不够充分,无法有效区分语义相似的句子。此外,BERT类模型普遍存在的注意力下沉问题,使得模型对CLS token(聚合了句子语义信息的特殊token)的关注度不足,影响了句子嵌入的质量。

核心思路:JTCSE的核心思路是同时利用语义表示张量的模长和方向信息进行对比学习。通过对语义表示张量施加模长约束,可以加强正样本之间的对齐,从而更有效地学习到语义相似的句子嵌入。同时,引入交叉注意力机制,增强模型对CLS token的关注,提升CLS Pooling的质量,从而获得更具代表性的句子嵌入。

技术框架:JTCSE框架主要包含两个核心模块:张量模约束和交叉注意力机制。首先,使用孪生塔结构的模型(如BERT)对输入句子进行编码,得到语义表示张量。然后,通过张量模约束损失函数,促使正样本对的语义表示张量具有相似的模长。同时,在孪生塔模型之间引入交叉注意力机制,使得一个塔的模型可以关注另一个塔的CLS token,从而增强模型对全局语义信息的理解。最后,通过对比学习损失函数,进一步优化句子嵌入的质量。

关键创新:JTCSE的关键创新在于:1) 首次将张量模约束引入无监督对比学习,充分利用了语义表示张量的模长信息;2) 提出了孪生塔模型之间的交叉注意力机制,有效解决了BERT类模型的注意力下沉问题,提升了CLS Pooling的质量。

关键设计:在张量模约束方面,论文设计了一种损失函数,用于衡量正样本对的语义表示张量模长之间的差异,并促使它们尽可能接近。在交叉注意力机制方面,论文采用了一种标准的Transformer注意力结构,其中query来自一个塔的输出,key和value来自另一个塔的CLS token。具体的参数设置和损失函数权重等细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

JTCSE在七个语义文本相似度计算任务中取得了SOTA结果,表明其学习到的句子嵌入具有更高的语义表达能力。此外,在超过130个零样本下游任务上的评估结果也表明,JTCSE的整体性能优于其他基线方法,验证了其泛化能力和鲁棒性。具体性能提升数据在论文中有详细展示(未知)。

🎯 应用场景

JTCSE框架学习到的高质量句子嵌入可以广泛应用于各种自然语言处理任务,如语义文本相似度计算、文本分类、信息检索、问答系统等。该方法尤其适用于缺乏标注数据的场景,可以通过无监督的方式学习到有效的句子表示,降低了对人工标注数据的依赖,具有重要的实际应用价值。

📄 摘要(原文)

Unsupervised contrastive learning has become a hot research topic in natural language processing. Existing works usually aim at constraining the orientation distribution of the representations of positive and negative samples in the high-dimensional semantic space in contrastive learning, but the semantic representation tensor possesses both modulus and orientation features, and the existing works ignore the modulus feature of the representations and cause insufficient contrastive learning. % Therefore, we firstly propose a training objective that aims at modulus constraints on the semantic representation tensor, to strengthen the alignment between the positive samples in contrastive learning. Therefore, we first propose a training objective that is designed to impose modulus constraints on the semantic representation tensor, to strengthen the alignment between positive samples in contrastive learning. Then, the BERT-like model suffers from the phenomenon of sinking attention, leading to a lack of attention to CLS tokens that aggregate semantic information. In response, we propose a cross-attention structure among the twin-tower ensemble models to enhance the model's attention to CLS token and optimize the quality of CLS Pooling. Combining the above two motivations, we propose a new \textbf{J}oint \textbf{T}ensor representation modulus constraint and \textbf{C}ross-attention unsupervised contrastive learning \textbf{S}entence \textbf{E}mbedding representation framework JTCSE, which we evaluate in seven semantic text similarity computation tasks, and the experimental results show that JTCSE's twin-tower ensemble model and single-tower distillation model outperform the other baselines and become the current SOTA. In addition, we have conducted an extensive zero-shot downstream task evaluation, which shows that JTCSE outperforms other baselines overall on more than 130 tasks.