TabiBERT: A Large-Scale ModernBERT Foundation Model and A Unified Benchmark for Turkish

📄 arXiv: 2512.23065v3 📥 PDF

作者: Melikşah Türker, A. Ebrar Kızıloğlu, Onur Güngör, Susan Üsküdarlı

分类: cs.CL

发布日期: 2025-12-28 (更新: 2026-01-05)

备注: 33 pages, 2 figures, 13 tables


💡 一句话要点

提出TabiBERT,一个大规模土耳其语ModernBERT基础模型,并构建统一评测基准TabiBench。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 土耳其语NLP 预训练模型 ModernBERT 长文本建模 TabiBench

📋 核心要点

  1. 现有的土耳其语NLP缺乏一个从头训练的、结合了现代架构范式的单语编码器模型。
  2. TabiBERT基于ModernBERT架构,利用大规模语料库进行预训练,并优化了长上下文建模能力。
  3. TabiBERT在TabiBench上取得了显著的性能提升,并在多个任务上超越了现有最佳模型。

📝 摘要(中文)

本文介绍了TabiBERT,一个基于ModernBERT架构从头开始训练的单语土耳其语编码器。ModernBERT通过整合旋转位置嵌入(RoPE)、FlashAttention和改进的归一化,显著提升了计算效率、训练稳定性和长上下文建模能力。TabiBERT在一个包含848.8亿token的多领域语料库(73%网页文本,20%科学出版物,6%源代码,0.3%数学内容)上进行了预训练,总计一万亿token。它支持8192个token的上下文长度(原始BERT的16倍),实现了高达2.65倍的推理加速,并降低了GPU内存消耗,从而可以使用更大的batch size。此外,本文还提出了TabiBench,一个包含28个数据集、涵盖八个任务类别的统一评测基准,使用GLUE风格的宏平均进行评估。TabiBERT在TabiBench上获得了77.58分,超过BERTurk 1.62分,并在八个类别中的五个类别上取得了state-of-the-art的结果,在问答(+9.55分)、代码检索(+2.41分)和学术理解(+0.66分)方面表现尤为出色。与包括TurkishBERTweet等特定任务的先前最佳结果相比,TabiBERT实现了+1.47的平均改进,表明其具有强大的跨领域泛化能力。我们发布了模型权重、训练配置和评估代码,以促进透明、可复现的土耳其语编码器研究。

🔬 方法详解

问题定义:现有的土耳其语NLP模型,特别是基于Transformer的编码器,在计算效率、长文本处理能力和跨领域泛化性方面存在不足。缺乏一个专门为土耳其语设计的、利用现代Transformer架构优势(如RoPE、FlashAttention)的大规模预训练模型。现有模型在特定任务上的表现可能较好,但在通用性和鲁棒性方面仍有提升空间。

核心思路:TabiBERT的核心思路是构建一个基于ModernBERT架构的、专门为土耳其语设计的大规模预训练语言模型。通过在大规模、多样化的语料库上进行训练,使模型能够学习到丰富的土耳其语语言知识和上下文信息。同时,利用ModernBERT的优势,提高模型的计算效率和长文本处理能力,从而提升模型在各种NLP任务上的性能。

技术框架:TabiBERT的整体框架遵循ModernBERT架构,主要包括以下几个阶段:1) 数据收集与清洗:收集大规模的土耳其语语料库,包括网页文本、科学出版物、源代码和数学内容,并进行清洗和预处理。2) 模型预训练:使用收集到的语料库,从头开始训练TabiBERT模型。训练过程中,采用旋转位置嵌入(RoPE)和FlashAttention等技术,以提高模型的计算效率和长文本处理能力。3) 模型评估:在TabiBench基准上评估TabiBERT模型的性能,并与其他模型进行比较。

关键创新:TabiBERT的关键创新点在于:1) 它是第一个基于ModernBERT架构的、专门为土耳其语设计的大规模预训练模型。2) 它支持8192个token的上下文长度,显著提升了长文本处理能力。3) 它在TabiBench基准上取得了state-of-the-art的结果,证明了其在各种NLP任务上的优越性能。

关键设计:TabiBERT的关键设计包括:1) 采用旋转位置嵌入(RoPE)来编码位置信息,相比于绝对位置嵌入,RoPE更适合长文本建模。2) 使用FlashAttention来加速注意力计算,降低GPU内存消耗,从而可以使用更大的batch size。3) 在大规模、多样化的语料库上进行预训练,以学习到丰富的土耳其语语言知识。4) 针对土耳其语的特点,对分词器和词汇表进行了优化。

📊 实验亮点

TabiBERT在TabiBench基准测试中取得了显著的成果,总体得分达到77.58,超越了BERTurk 1.62分。在问答任务上,TabiBERT的性能提升了9.55分,在代码检索任务上提升了2.41分,在学术理解任务上提升了0.66分。与特定任务的SOTA模型相比,TabiBERT平均提升了1.47分,展示了其强大的跨领域泛化能力。

🎯 应用场景

TabiBERT的潜在应用领域包括:机器翻译、问答系统、文本摘要、情感分析、信息检索等。它可以作为各种土耳其语NLP任务的基础模型,为下游任务提供强大的语言表示能力。TabiBERT的发布将促进土耳其语NLP研究的发展,并为土耳其语用户提供更好的自然语言处理服务。未来,可以进一步探索TabiBERT在特定领域的应用,例如医疗、金融等。

📄 摘要(原文)

Since the inception of BERT, encoder-only Transformers have evolved significantly in computational efficiency, training stability, and long-context modeling. ModernBERT consolidates these advances by integrating Rotary Positional Embeddings (RoPE), FlashAttention, and refined normalization. Despite these developments, Turkish NLP lacks a monolingual encoder trained from scratch, incorporating such modern architectural paradigms. This work introduces TabiBERT, a monolingual Turkish encoder based on ModernBERT architecture trained from scratch on a large, curated corpus. TabiBERT is pre-trained on one trillion tokens sampled from an 84.88B token multi-domain corpus: web text (73%), scientific publications (20%), source code (6%), and mathematical content (0.3%). It supports 8,192-token context length (16x original BERT), achieves up to 2.65x inference speedup, and reduces GPU memory consumption, enabling larger batch sizes. We introduce TabiBench with 28 datasets across eight task categories with standardized splits and protocols, evaluated using GLUE-style macro-averaging. TabiBERT attains 77.58 on TabiBench, outperforming BERTurk by 1.62 points and establishing state-of-the-art on five of eight categories, with particularly strong gains on question answering (+9.55 points), code retrieval (+2.41 points), and academic understanding (+0.66 points). Compared with task-specific prior best results, including specialized models like TurkishBERTweet, TabiBERT achieves +1.47 average improvement, indicating robust cross-domain generalization. We release model weights, training configurations, and evaluation code for transparent, reproducible Turkish encoder research.