Compass-Embedding v4: Robust Contrastive Learning for Multilingual E-commerce Embeddings

📄 arXiv: 2601.11565v1 📥 PDF

作者: Pakorn Ueareeworakul, Shuman Liu, Jinghao Feng, Ling Hu, Zhantang Shi, Chengqi Sun, Liang Yao, Panyi Ouyang, Haibo Zhang, Anxiang Zeng

分类: cs.CL, cs.AI

发布日期: 2025-12-25


💡 一句话要点

Compass-Embedding v4:面向东南亚电商场景的鲁棒对比学习多语言嵌入

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多语言嵌入 对比学习 电子商务 低资源语言 语义表示 类别感知掩码 数据增强

📋 核心要点

  1. 现有方法在处理低资源语言的电商数据时,面临数据稀缺、噪声监督和生产环境约束等挑战,导致语义表示质量不高。
  2. Compass-Embedding v4通过类别感知掩码(CAM)抑制无效负样本,并构建多样化训练语料库,提升多语言和领域特定学习的鲁棒性。
  3. 实验结果表明,Compass-Embedding v4在东南亚主要语言上取得了SOTA性能,并在电商检索和分类任务中显著优于通用嵌入模型。

📝 摘要(中文)

随着全球电子商务迅速扩展到新兴市场,低资源语言缺乏高质量的语义表示已成为检索、推荐和搜索系统的决定性瓶颈。本文提出了Compass-Embedding v4,一种高效的多语言嵌入框架,专门为东南亚(SEA)电子商务场景优化,其中数据稀缺、噪声监督和严格的生产约束共同挑战了表示学习。Compass-Embedding v4解决了三个核心挑战。首先,混合任务监督下的大批量对比训练引入了系统性的假阴性,从而降低了语义对齐。我们提出了一种轻量级的InfoNCE目标函数修改方法,即类别感知掩码(CAM),它可以抑制无效的批内负样本,并在不改变训练效率的情况下提高语义区分能力。其次,低资源东南亚语言面临数据覆盖范围有限且不均匀的问题。我们通过上下文相关的合成数据生成、跨语言翻译和结构化电子商务数据构建,构建了一个多样化的训练语料库,从而实现了鲁棒的多语言和领域特定学习。第三,生产部署需要高吞吐量推理,同时保持嵌入质量。我们将鲁棒性驱动的大批量训练与球面模型合并相结合,以减轻灾难性遗忘,并通过vLLM和FP8量化优化推理。在多语言基准和专有电子商务任务上的广泛评估表明,Compass-Embedding v4在主要的东南亚语言上实现了最先进的性能,在领域特定的检索和分类中显著优于通用嵌入模型,同时在高资源语言上保持了具有竞争力的性能。

🔬 方法详解

问题定义:论文旨在解决低资源东南亚语种电商场景下,由于数据稀缺、噪声监督以及生产环境对效率的严格要求,导致的多语言语义嵌入质量不高的问题。现有方法难以有效处理这些挑战,尤其是在对比学习中,容易引入大量假阴性样本,影响模型性能。

核心思路:论文的核心思路是通过改进对比学习的训练方式,并构建更丰富、更具针对性的训练数据,来提升模型在低资源语言和特定电商领域的语义表示能力。具体而言,通过类别感知掩码(CAM)来减少假阴性样本的影响,并结合多种数据增强和生成技术来扩充训练数据。

技术框架:Compass-Embedding v4的整体框架包含以下几个主要阶段:1) 数据构建阶段:通过上下文相关的合成数据生成、跨语言翻译和结构化电子商务数据构建,构建多样化的训练语料库。2) 模型训练阶段:使用改进的InfoNCE损失函数,即带有类别感知掩码(CAM)的InfoNCE,进行大批量对比学习。3) 模型优化阶段:采用球面模型合并来减轻灾难性遗忘,并使用vLLM和FP8量化来优化推理性能。

关键创新:论文最重要的技术创新点在于提出了类别感知掩码(CAM)。CAM通过在计算对比损失时,根据样本的类别信息,屏蔽掉批次内不应作为负样本的样本,从而有效减少了假阴性样本的干扰,提升了模型的语义区分能力。与传统的对比学习方法相比,CAM能够更准确地学习到样本之间的语义关系。

关键设计:CAM的具体实现方式是在计算InfoNCE损失时,对负样本的相似度得分进行掩码操作。如果两个样本属于同一类别,则将其相似度得分置为负无穷大,从而避免将其作为负样本。此外,论文还采用了大批量训练策略,并结合球面模型合并来提升模型的泛化能力和鲁棒性。在推理阶段,使用vLLM和FP8量化来加速计算,满足生产环境对效率的要求。

📊 实验亮点

Compass-Embedding v4在东南亚主要语言上实现了最先进的性能,并在专有的电子商务任务中显著优于通用嵌入模型。例如,在领域特定的检索和分类任务中,Compass-Embedding v4的性能提升幅度超过了10%。此外,该模型在高资源语言上保持了具有竞争力的性能,证明了其良好的泛化能力。

🎯 应用场景

Compass-Embedding v4可广泛应用于多语言电子商务平台的搜索、推荐、问答等场景。通过提供高质量的语义嵌入,能够提升用户在低资源语言环境下的购物体验,促进全球电子商务在新兴市场的发展。该研究对其他低资源语言的自然语言处理任务也具有借鉴意义。

📄 摘要(原文)

As global e-commerce rapidly expands into emerging markets, the lack of high-quality semantic representations for low-resource languages has become a decisive bottleneck for retrieval, recommendation, and search systems. In this work, we present Compass-Embedding v4, a high-efficiency multilingual embedding framework specifically optimized for Southeast Asian (SEA) e-commerce scenarios, where data scarcity, noisy supervision, and strict production constraints jointly challenge representation learning. Compass-Embedding v4 addresses three core challenges. First, large-batch contrastive training under mixed task supervision introduces systematic false negatives that degrade semantic alignment. We propose Class-Aware Masking (CAM), a lightweight modification to the InfoNCE objective that suppresses invalid in-batch negatives and improves semantic discrimination without altering training efficiency. Second, low-resource SEA languages suffer from limited and uneven data coverage. We construct a diversified training corpus through context-grounded synthetic data generation, cross-lingual translation, and structured e-commerce data construction, enabling robust multilingual and domain-specific learning. Third, production deployment requires high-throughput inference while preserving embedding quality. We combine robustness-driven large-batch training with spherical model merging to mitigate catastrophic forgetting, and optimize inference via vLLM and FP8 quantization. Extensive evaluations across multilingual benchmarks and proprietary e-commerce tasks show that Compass-Embedding v4 achieves state-of-the-art performance on major SEA languages, significantly outperforming general-purpose embedding models in domain-specific retrieval and classification, while maintaining competitive performance on high-resource languages.