VN-MTEB: Vietnamese Massive Text Embedding Benchmark
作者: Loc Pham, Tung Luu, Thu Vo, Minh Nguyen, Viet Hoang
分类: cs.CL, cs.AI
发布日期: 2025-07-29
备注: 19 pages (including reference, appendix) 41 datasets from 6 tasks (retrieval, classification, pair-classification, clustering, rerank, sts) 7 figures, 16 tables, benchmark 18 text embedding models
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
提出VN-MTEB越南语大规模文本嵌入基准,用于评估和提升越南语NLP模型性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 越南语NLP 文本嵌入 基准数据集 机器翻译 大型语言模型 语义相似度 旋转位置嵌入
📋 核心要点
- 现有越南语NLP模型缺乏大规模、多样化的测试基准,难以有效评估和部署。
- 论文提出VN-MTEB基准,通过自动化框架翻译和过滤英文数据集,构建高质量越南语数据集。
- 实验表明,采用旋转位置嵌入的更大规模模型在越南语文本嵌入任务中表现更优。
📝 摘要(中文)
越南在互联网流量和在线不良信息方面均名列前茅。因此,在应用程序中实施嵌入模型以执行推荐和内容控制任务至关重要。然而,由于缺乏大规模的测试数据集,无论是在数量上还是在任务多样性上,科学家们很难在将AI模型部署到实际的大规模项目中之前有效地评估它们。为了解决这个重要问题,我们引入了一个越南语基准,VN-MTEB,用于嵌入模型。我们通过使用我们新的自动化框架翻译来自大规模文本嵌入基准的大量英语样本来创建它。我们利用大型语言模型(LLM)和最先进的嵌入模型的优势来进行翻译和过滤过程,以保留高质量的样本,保证语言的自然流畅和语义的忠实性,同时保留命名实体识别(NER)和代码片段。我们全面的基准包括来自六个任务的41个数据集,专门为越南语文本嵌入而设计。在我们的分析中,我们发现使用旋转位置嵌入的更大、更复杂的模型在嵌入任务中优于使用绝对位置嵌入的模型。数据集可在HuggingFace上找到。
🔬 方法详解
问题定义:当前越南语自然语言处理领域缺乏大规模、多样化的文本嵌入基准,这使得研究人员难以有效评估和比较不同的嵌入模型,阻碍了越南语NLP技术的进一步发展。现有的英文数据集无法直接应用于越南语场景,且人工翻译成本高昂,效率低下。
核心思路:论文的核心思路是利用大型语言模型(LLM)的翻译能力和先进的嵌入模型,自动化地将英文大规模文本嵌入基准(MTEB)翻译成越南语,并进行高质量的过滤,从而构建一个大规模、高质量的越南语文本嵌入基准VN-MTEB。通过这种方式,可以有效降低数据集构建成本,并保证数据集的质量和多样性。
技术框架:VN-MTEB的构建流程主要包括以下几个阶段:1) 数据选择:从英文MTEB中选择具有代表性的数据集。2) 机器翻译:使用LLM将英文数据集翻译成越南语。3) 数据过滤:利用嵌入模型对翻译后的数据进行语义相似度评估,过滤掉质量较差的样本。4) 数据验证:人工抽样检查,确保数据集的质量。最终,构建包含41个数据集,覆盖6个任务的VN-MTEB基准。
关键创新:该论文的关键创新在于提出了一种自动化构建大规模多语言文本嵌入基准的框架。该框架结合了LLM的翻译能力和嵌入模型的语义相似度评估能力,可以高效地将英文数据集迁移到其他语言,并保证数据集的质量。此外,该论文还发现旋转位置嵌入(Rotary Positional Embedding)在越南语文本嵌入任务中表现优于绝对位置嵌入(Absolute Positional Embedding)。
关键设计:在数据过滤阶段,论文使用了嵌入模型计算英文原文和越南语译文之间的语义相似度,并设定阈值来过滤掉相似度较低的样本。具体阈值的选择需要根据数据集的特点进行调整。此外,论文还对翻译后的命名实体和代码片段进行了特殊处理,以保证其准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在VN-MTEB基准上,采用旋转位置嵌入的更大规模模型(具体模型名称未知)在文本嵌入任务中表现优于使用绝对位置嵌入的模型。这表明旋转位置嵌入更适合处理越南语等具有复杂语法的语言。具体的性能提升幅度未知,但该发现为越南语NLP模型的设计提供了有价值的指导。
🎯 应用场景
VN-MTEB可广泛应用于越南语自然语言处理的各个领域,例如信息检索、文本分类、情感分析、问答系统等。该基准的建立将促进越南语NLP技术的发展,并为相关应用提供更好的性能和用户体验。未来,VN-MTEB可以进一步扩展到其他东南亚语言,构建更全面的多语言文本嵌入基准。
📄 摘要(原文)
Vietnam ranks among the top countries in terms of both internet traffic and online toxicity. As a result, implementing embedding models for recommendation and content control duties in applications is crucial. However, a lack of large-scale test datasets, both in volume and task diversity, makes it tricky for scientists to effectively evaluate AI models before deploying them in real-world, large-scale projects. To solve this important problem, we introduce a Vietnamese benchmark, VN-MTEB for embedding models, which we created by translating a large number of English samples from the Massive Text Embedding Benchmark using our new automated framework. We leverage the strengths of large language models (LLMs) and cutting-edge embedding models to conduct translation and filtering processes to retain high-quality samples, guaranteeing a natural flow of language and semantic fidelity while preserving named entity recognition (NER) and code snippets. Our comprehensive benchmark consists of 41 datasets from six tasks specifically designed for Vietnamese text embeddings. In our analysis, we find that bigger and more complex models using Rotary Positional Embedding outperform those using Absolute Positional Embedding in embedding tasks. Datasets are available at HuggingFace: https://huggingface.co/collections/GreenNode/vn-mteb-68871433f0f7573b8e1a6686