Compass-v3: Scaling Domain-Specific LLMs for Multilingual E-Commerce in Southeast Asia

📄 arXiv: 2509.09121v1 📥 PDF

作者: Sophia Maria

分类: cs.CL

发布日期: 2025-09-11


💡 一句话要点

Compass-v3:面向东南亚电商的多语言领域专用LLM,性能超越GPT-4

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 混合专家模型 电子商务 多语言 东南亚 指令遵循 领域专用模型

📋 核心要点

  1. 现有LLM在通用领域表现良好,但在电商等特定领域,由于数据复杂性和多语言特性,性能显著下降。
  2. Compass-v3采用混合专家模型,结合硬件优化和最优传输直接偏好优化,提升模型在东南亚电商场景下的性能。
  3. 实验结果表明,Compass-v3在电商任务和多语言能力上超越了DeepSeek-V3.1、GPT-4等模型,并在Shopee平台广泛应用。

📝 摘要(中文)

大型语言模型(LLM)在通用领域应用中表现出色,但在需要领域特定知识的专业任务中,其性能通常会下降。电子商务尤其具有挑战性,因为其数据嘈杂、异构、多语言且高度动态。我们提出了Compass-v3,一个垂直领域的混合专家(MoE)模型,总参数为245B,每个token激活71B参数,专为东南亚电子商务设计。Compass-v3采用更少但更大的专家,并结合硬件高效优化(如节点内专家并行和定制的memcpy算子)以最大化GPU利用率。该模型在12T tokens的精选多语言语料库和大规模合成电子商务指令上使用混合训练策略进行训练。为了增强对齐,我们提出了最优传输直接偏好优化(OTPO),它捕获token级别的差异并提高商业特定场景中的指令遵循度。广泛的评估表明,Compass-v3提供了最先进的电子商务性能,超过了DeepSeek-V3.1、GPT-4系列和Qwen3-235B。此外,Compass-v3在低资源东南亚语言(印度尼西亚语、泰语、菲律宾语、越南语、马来语、塔加路语)和葡萄牙语中表现出强大的多语言能力,同时保持了通用基准上的竞争性能。它已广泛应用于Shopee的工业级电子商务平台,并逐渐取代OpenAI的流量,目前占LLM总使用量的70%以上,突显了其在专业商业专业知识和广泛语言能力方面的双重优势。

🔬 方法详解

问题定义:现有的大型语言模型在通用领域表现出色,但在电子商务领域,由于数据噪声大、异构、多语言且动态性强,性能显著下降。尤其是在东南亚市场,多语言环境和低资源语言给模型带来了更大的挑战。现有方法难以兼顾领域知识和多语言能力,导致在电商场景下的表现不佳。

核心思路:Compass-v3的核心思路是构建一个领域专用的混合专家模型,并针对东南亚电商的特点进行优化。通过混合专家架构,模型可以学习到更细粒度的领域知识。同时,采用硬件高效优化和最优传输直接偏好优化等技术,提升模型的训练效率和指令遵循能力。

技术框架:Compass-v3采用混合专家(MoE)架构,包含多个专家模型。整体流程包括:1) 数据收集与清洗:收集并清洗大规模的东南亚电商数据,包括商品描述、用户评论等。2) 模型训练:使用混合训练策略,在精选的多语言语料库和合成的电商指令上训练模型。3) 模型优化:采用节点内专家并行和定制的memcpy算子等硬件高效优化技术,提升GPU利用率。4) 对齐优化:使用最优传输直接偏好优化(OTPO)方法,增强模型对电商场景指令的理解和遵循能力。

关键创新:Compass-v3的关键创新在于以下几个方面:1) 领域专用混合专家模型:针对东南亚电商领域构建的混合专家模型,能够更好地学习领域知识。2) 硬件高效优化:通过节点内专家并行和定制的memcpy算子等技术,提升GPU利用率,加速模型训练。3) 最优传输直接偏好优化(OTPO):通过捕获token级别的差异,增强模型对电商场景指令的理解和遵循能力。与现有方法相比,Compass-v3更注重领域知识的融合和硬件效率的提升。

关键设计:Compass-v3采用了245B总参数和71B激活参数的混合专家模型。在训练过程中,使用了12T tokens的精选多语言语料库和大规模合成电商指令。OTPO损失函数的设计考虑了token级别的差异,通过最优传输算法来优化模型对指令的遵循能力。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。

📊 实验亮点

Compass-v3在电商任务上超越了DeepSeek-V3.1、GPT-4系列和Qwen3-235B等模型,展现了最先进的性能。同时,该模型在低资源东南亚语言和葡萄牙语中表现出强大的多语言能力,并在通用基准上保持了竞争力。Compass-v3已在Shopee的工业级电商平台广泛应用,并取代了OpenAI的部分流量,目前占LLM总使用量的70%以上。

🎯 应用场景

Compass-v3可广泛应用于东南亚电商平台的各个环节,例如商品描述生成、用户评论分析、智能客服、搜索推荐等。该模型能够提升电商平台的服务质量和用户体验,并支持多语言环境下的业务拓展。未来,Compass-v3有望成为东南亚电商领域的基础设施,推动该地区的数字化转型。

📄 摘要(原文)

Large language models (LLMs) excel in general-domain applications, yet their performance often degrades in specialized tasks requiring domain-specific knowledge. E-commerce is particularly challenging, as its data are noisy, heterogeneous, multilingual, and highly dynamic. We present Compass-v3, a vertical-domain Mixture-of-Experts (MoE) model with 245B total parameters and 71B active per token, designed for Southeast Asian e-commerce. Compass-v3 adopts fewer but larger experts, combined with hardware-efficient optimizations-such as intra-node expert parallelism and a customized memcpy operator-to maximize GPU utilization. The model is trained on 12T tokens of curated multilingual corpora and large-scale synthetic e-commerce instructions using a mixed-training strategy. To enhance alignment, we propose Optimal-Transport Direct Preference Optimization (OTPO), which captures token-level distinctions and improves instruction adherence in commerce-specific scenarios. Extensive evaluations demonstrate that Compass-v3 delivers state-of-the-art e-commerce performance, surpassing DeepSeek-V3.1, GPT-4 series, and Qwen3-235B. Moreover, Compass-v3 demonstrates strong multilingual capability across low-resource Southeast Asian languages (Indonesian, Thai, Filipino, Vietnamese, Malay, Taglog) and Portuguese while sustaining competitive performance on general benchmarks. It has already been widely applied in Shopee's industrial-scale e-commerce platform and is gradually replacing OpenAI's traffic, now accounting for over 70\% of total LLM usage, highlighting its dual strengths in specialized commerce expertise and broad linguistic competence.