Dicta-LM 3.0: Advancing The Frontier of Hebrew Sovereign LLMs
作者: Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel
分类: cs.CL
发布日期: 2026-02-02
💡 一句话要点
发布Dicta-LM 3.0:推进希伯来语主权LLM前沿,提供多种尺寸和工具调用支持。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 希伯来语LLM 低资源语言 开源模型 模型评估 多语言NLP
📋 核心要点
- 现有开放权重的大型语言模型主要集中在英语等高资源语言上,对希伯来语等低资源语言的支持不足。
- Dicta-LM 3.0通过在大量希伯来语和英语语料库上训练LLM,并提供多种尺寸和变体,来解决低资源语言LLM的挑战。
- 论文引入了新的希伯来语聊天LLM评估基准,涵盖多种任务,为模型评估提供了更全面的框架。
📝 摘要(中文)
本文介绍了Dicta-LM 3.0,这是一个开源的LLM集合,它在大量的希伯来语和英语文本语料库上进行训练。该模型发布了三种尺寸:24B(基于Mistral-Small-3.1),12B(基于NVIDIA Nemotron Nano V2)和1.7B(基于Qwen3-1.7B)。每个模型都发布了多个变体,其原生上下文长度为65k tokens;包括基础模型和带有工具调用支持的聊天模型。为了严格评估我们的模型,我们引入了一个新的希伯来语聊天LLM评估基准,涵盖了翻译、摘要、Winograd、以色列琐事和变音符号(nikud)等各种任务。我们的工作不仅解决了在低资源语言中训练LLM的复杂性,而且还提出了一个可用于将其他LLM适配到各种非英语语言的框架,从而为更广泛的多语言NLP领域做出了贡献。
🔬 方法详解
问题定义:现有的大型语言模型主要集中在高资源语言上,对于希伯来语等低资源语言的支持不足。训练低资源语言的LLM面临着数据稀缺、领域知识缺乏等挑战,并且缺乏针对这些语言的全面评估基准。
核心思路:论文的核心思路是通过在大量的希伯来语和英语语料库上训练LLM,并基于已有的优秀开源模型进行适配,从而构建高性能的希伯来语LLM。同时,为了更好地评估模型性能,论文还构建了专门针对希伯来语的评估基准。
技术框架:Dicta-LM 3.0的技术框架主要包括以下几个部分:1)选择合适的基座模型,包括Mistral-Small-3.1、NVIDIA Nemotron Nano V2和Qwen3-1.7B;2)收集和处理大量的希伯来语和英语语料库;3)使用收集到的语料库对基座模型进行训练和微调;4)构建希伯来语评估基准,并对训练好的模型进行评估。
关键创新:论文的关键创新在于:1)针对希伯来语等低资源语言,构建了高质量的LLM;2)提供了多种尺寸和变体的模型,以满足不同的应用需求;3)构建了专门针对希伯来语的评估基准,为模型评估提供了更全面的框架。
关键设计:论文的关键设计包括:1)选择了具有不同参数规模的基座模型,以适应不同的计算资源;2)采用了65k tokens的上下文长度,以支持更长的文本输入;3)提供了带有工具调用支持的聊天模型,以增强模型的交互能力;4)评估基准涵盖了翻译、摘要、Winograd、以色列琐事和变音符号等多种任务。
📊 实验亮点
Dicta-LM 3.0在希伯来语的各项任务上都取得了显著的性能。论文引入的希伯来语评估基准为后续研究提供了重要的参考。模型提供了多种尺寸和变体,满足了不同应用场景的需求。65k tokens的上下文长度也为处理长文本提供了便利。
🎯 应用场景
Dicta-LM 3.0可广泛应用于希伯来语相关的自然语言处理任务,如机器翻译、文本摘要、问答系统、聊天机器人等。它能够促进希伯来语信息处理技术的发展,并为希伯来语用户提供更智能化的服务。未来,该研究可以推广到其他低资源语言,构建更多语言的主权LLM。
📄 摘要(原文)
Open-weight LLMs have been released by frontier labs; however, sovereign Large Language Models (for languages other than English) remain low in supply yet high in demand. Training large language models (LLMs) for low-resource languages such as Hebrew poses unique challenges. In this paper, we introduce Dicta-LM 3.0: an open-weight collection of LLMs trained on substantially-sized corpora of Hebrew and English texts. The model is released in three sizes: 24B - adapted from the Mistral-Small-3.1 base model, 12B - adapted from the NVIDIA Nemotron Nano V2 model, and 1.7B - adapted from the Qwen3-1.7B base model. We are releasing multiple variants of each model, each with a native context length of 65k tokens; base model and chat model with tool-calling support. To rigorously evaluate our models, we introduce a new benchmark suite for evaluation of Hebrew chat-LLMs, covering a diverse set of tasks including Translation, Summarization, Winograd, Israeli Trivia, and Diacritization (nikud). Our work not only addresses the intricacies of training LLMs in low-resource languages but also proposes a framework that can be leveraged for adapting other LLMs to various non-English languages, contributing to the broader field of multilingual NLP.