CREST: Universal Safety Guardrails Through Cluster-Guided Cross-Lingual Transfer

📄 arXiv: 2512.02711v1 📥 PDF

作者: Lavish Bansal, Naman Mishra

分类: cs.CL, cs.LG

发布日期: 2025-12-02

备注: 8 Pages, 5 Figures, Under Review


💡 一句话要点

CREST:通过聚类引导的跨语言迁移实现通用安全防护

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨语言迁移学习 内容安全 低资源语言 大型语言模型 聚类分析

📋 核心要点

  1. 现有安全防护系统主要针对高资源语言,忽略了使用低资源语言的大量人群。
  2. CREST利用聚类引导的跨语言迁移,仅需少量高资源语言数据即可泛化到多种低资源语言。
  3. 实验表明,CREST在多个安全基准上超越了同等规模的模型,并与更大规模的模型具有竞争力。

📝 摘要(中文)

为了确保大型语言模型(LLMs)在实际应用中的内容安全,本文提出了CREST(CRoss-lingual Efficient Safety Transfer),一个参数高效的多语言安全分类模型,仅用0.5B参数即可支持100种语言。该模型通过在精心挑选的13种高资源语言子集上进行训练,利用基于聚类的跨语言迁移,实现了从少量语言到100种语言的有效泛化,从而解决了低资源语言训练数据有限的挑战。我们在六个安全基准上进行了全面的评估,结果表明CREST优于现有同等规模的最先进安全防护模型,并取得了与参数量远大于自身(2.5B参数及以上)的模型相媲美的结果。我们的研究结果突显了特定于语言的安全防护模型的局限性,并强调了开发能够有效扩展以服务于全球人口的通用、语言无关的安全系统的必要性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在低资源语言环境下的内容安全问题。现有的安全防护系统主要针对高资源语言,无法有效应用于低资源语言,导致全球范围内不同语言使用者面临的安全风险不平等。现有方法通常需要大量的标注数据,而低资源语言的标注数据稀缺,直接训练效果不佳。

核心思路:CREST的核心思路是利用跨语言迁移学习,将从高资源语言学习到的安全知识迁移到低资源语言。通过聚类分析,将语言按照语义相似性进行分组,从而实现更有效的知识迁移。这样,模型只需要在高资源语言上进行训练,就可以泛化到多种低资源语言,大大降低了对低资源语言标注数据的需求。

技术框架:CREST的整体框架包括以下几个主要阶段:1) 语言聚类:使用预训练的跨语言词嵌入对语言进行聚类,将语义相似的语言分到同一组。2) 高资源语言训练:在选定的高资源语言子集上训练安全分类模型。3) 跨语言迁移:利用聚类结果,将高资源语言学习到的知识迁移到同一簇中的低资源语言。4) 模型微调:在少量低资源语言数据上进行微调,进一步提升模型在低资源语言上的性能。

关键创新:CREST的关键创新在于其聚类引导的跨语言迁移方法。传统的跨语言迁移方法通常直接将知识从高资源语言迁移到低资源语言,忽略了语言之间的语义差异。CREST通过聚类分析,将语义相似的语言分到同一组,从而实现更有效的知识迁移。此外,CREST还采用了参数高效的模型结构,使其能够在有限的计算资源下支持多种语言。

关键设计:CREST使用XLM-RoBERTa作为基础模型,并在此基础上添加了一个分类层。损失函数采用交叉熵损失函数。在训练过程中,采用了数据增强和正则化等技术,以提高模型的泛化能力。聚类算法采用k-means算法,并使用余弦相似度作为距离度量。高资源语言的选择是基于语言的资源丰富度和语言之间的语义多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CREST在六个安全基准测试中表现出色,超过了参数规模相当的现有最先进安全防护模型。例如,在某些基准测试中,CREST的性能提升了5%以上。更重要的是,CREST取得了与参数量远大于自身(2.5B参数及以上)的模型相媲美的结果,证明了其参数效率和跨语言迁移的有效性。这些结果表明,CREST是一种具有竞争力的通用安全防护解决方案。

🎯 应用场景

CREST可应用于各种需要多语言内容安全保障的场景,例如:全球社交媒体平台、多语言在线论坛、跨境电商平台等。该研究的实际价值在于降低了低资源语言内容审核的成本,提升了全球范围内所有用户的在线安全体验。未来,CREST可以进一步扩展到更多语言,并与其他安全技术相结合,构建更完善的通用安全防护体系。

📄 摘要(原文)

Ensuring content safety in large language models (LLMs) is essential for their deployment in real-world applications. However, existing safety guardrails are predominantly tailored for high-resource languages, leaving a significant portion of the world's population underrepresented who communicate in low-resource languages. To address this, we introduce CREST (CRoss-lingual Efficient Safety Transfer), a parameter-efficient multilingual safety classification model that supports 100 languages with only 0.5B parameters. By training on a strategically chosen subset of only 13 high-resource languages, our model utilizes cluster-based cross-lingual transfer from a few to 100 languages, enabling effective generalization to both unseen high-resource and low-resource languages. This approach addresses the challenge of limited training data in low-resource settings. We conduct comprehensive evaluations across six safety benchmarks to demonstrate that CREST outperforms existing state-of-the-art guardrails of comparable scale and achieves competitive results against models with significantly larger parameter counts (2.5B parameters and above). Our findings highlight the limitations of language-specific guardrails and underscore the importance of developing universal, language-agnostic safety systems that can scale effectively to serve global populations.