Dicta-LM 3.0: Advancing The Frontier of Hebrew Sovereign LLMs

作者: Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel

分类: cs.CL

发布日期: 2026-02-02

💡 一句话要点

发布Dicta-LM 3.0：推进希伯来语主权LLM前沿，提供多种尺寸和工具调用支持。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 希伯来语LLM 低资源语言 开源模型 模型评估 多语言NLP

📋 核心要点

现有开放权重的大型语言模型主要集中在英语等高资源语言上，对希伯来语等低资源语言的支持不足。
Dicta-LM 3.0通过在大量希伯来语和英语语料库上训练LLM，并提供多种尺寸和变体，来解决低资源语言LLM的挑战。
论文引入了新的希伯来语聊天LLM评估基准，涵盖多种任务，为模型评估提供了更全面的框架。

📝 摘要（中文）

本文介绍了Dicta-LM 3.0，这是一个开源的LLM集合，它在大量的希伯来语和英语文本语料库上进行训练。该模型发布了三种尺寸：24B（基于Mistral-Small-3.1），12B（基于NVIDIA Nemotron Nano V2）和1.7B（基于Qwen3-1.7B）。每个模型都发布了多个变体，其原生上下文长度为65k tokens；包括基础模型和带有工具调用支持的聊天模型。为了严格评估我们的模型，我们引入了一个新的希伯来语聊天LLM评估基准，涵盖了翻译、摘要、Winograd、以色列琐事和变音符号（nikud）等各种任务。我们的工作不仅解决了在低资源语言中训练LLM的复杂性，而且还提出了一个可用于将其他LLM适配到各种非英语语言的框架，从而为更广泛的多语言NLP领域做出了贡献。

🔬 方法详解

问题定义：现有的大型语言模型主要集中在高资源语言上，对于希伯来语等低资源语言的支持不足。训练低资源语言的LLM面临着数据稀缺、领域知识缺乏等挑战，并且缺乏针对这些语言的全面评估基准。

核心思路：论文的核心思路是通过在大量的希伯来语和英语语料库上训练LLM，并基于已有的优秀开源模型进行适配，从而构建高性能的希伯来语LLM。同时，为了更好地评估模型性能，论文还构建了专门针对希伯来语的评估基准。

技术框架：Dicta-LM 3.0的技术框架主要包括以下几个部分：1）选择合适的基座模型，包括Mistral-Small-3.1、NVIDIA Nemotron Nano V2和Qwen3-1.7B；2）收集和处理大量的希伯来语和英语语料库；3）使用收集到的语料库对基座模型进行训练和微调；4）构建希伯来语评估基准，并对训练好的模型进行评估。

关键创新：论文的关键创新在于：1）针对希伯来语等低资源语言，构建了高质量的LLM；2）提供了多种尺寸和变体的模型，以满足不同的应用需求；3）构建了专门针对希伯来语的评估基准，为模型评估提供了更全面的框架。

关键设计：论文的关键设计包括：1）选择了具有不同参数规模的基座模型，以适应不同的计算资源；2）采用了65k tokens的上下文长度，以支持更长的文本输入；3）提供了带有工具调用支持的聊天模型，以增强模型的交互能力；4）评估基准涵盖了翻译、摘要、Winograd、以色列琐事和变音符号等多种任务。

📊 实验亮点

Dicta-LM 3.0在希伯来语的各项任务上都取得了显著的性能。论文引入的希伯来语评估基准为后续研究提供了重要的参考。模型提供了多种尺寸和变体，满足了不同应用场景的需求。65k tokens的上下文长度也为处理长文本提供了便利。

🎯 应用场景

Dicta-LM 3.0可广泛应用于希伯来语相关的自然语言处理任务，如机器翻译、文本摘要、问答系统、聊天机器人等。它能够促进希伯来语信息处理技术的发展，并为希伯来语用户提供更智能化的服务。未来，该研究可以推广到其他低资源语言，构建更多语言的主权LLM。

📄 摘要（原文）

Open-weight LLMs have been released by frontier labs; however, sovereign Large Language Models (for languages other than English) remain low in supply yet high in demand. Training large language models (LLMs) for low-resource languages such as Hebrew poses unique challenges. In this paper, we introduce Dicta-LM 3.0: an open-weight collection of LLMs trained on substantially-sized corpora of Hebrew and English texts. The model is released in three sizes: 24B - adapted from the Mistral-Small-3.1 base model, 12B - adapted from the NVIDIA Nemotron Nano V2 model, and 1.7B - adapted from the Qwen3-1.7B base model. We are releasing multiple variants of each model, each with a native context length of 65k tokens; base model and chat model with tool-calling support. To rigorously evaluate our models, we introduce a new benchmark suite for evaluation of Hebrew chat-LLMs, covering a diverse set of tasks including Translation, Summarization, Winograd, Israeli Trivia, and Diacritization (nikud). Our work not only addresses the intricacies of training LLMs in low-resource languages but also proposes a framework that can be leveraged for adapting other LLMs to various non-English languages, contributing to the broader field of multilingual NLP.

Dicta-LM 3.0: Advancing The Frontier of Hebrew Sovereign LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理