Benchmarking EngGPT2-16B-A3B against Comparable Italian and International Open-source LLMs

作者: Andrea Sassella, Andrea Chizzola, Tommaso Bianchi, Luca Alessandrelli, Mark James Carman

分类: cs.CL, cs.AI

发布日期: 2026-05-08

💡 一句话要点

评估EngGPT2MoE-16B-A3B模型：一种面向意大利语境的高性能混合专家（MoE）大语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 大语言模型 意大利语处理 长上下文理解 模型基准测试 稀疏激活 自然语言处理

📋 核心要点

核心问题：现有意大利语原生大模型在处理复杂推理任务及长上下文理解时，往往难以兼顾国际通用基准与本土语言能力的平衡。
方法要点：采用16B参数的混合专家（MoE）架构，通过仅激活3B参数实现高效推理，旨在提升模型在多语言环境下的计算效率与性能表现。
实验效果：在多项国际基准测试中超越同类MoE模型，并在32k上下文长度的RULER测试中表现突出，成为意大利语原生大模型的重要技术突破。

📝 摘要（中文）

本报告对ENGINEERING Ingegneria Informatica S.p.A.开发的EngGPT2MoE-16B-A3B大语言模型进行了全面基准测试。该模型采用混合专家（MoE）架构，总参数量为16B，激活参数量为3B。研究在ARC-Challenge、GSM8K、AIME、MMLU、HumanEval及RULER等多个国际基准上评估了其性能，并与同等规模的开源MoE及稠密模型进行了对比。结果显示，该模型在意大利语基准ITALIC上表现优异，在国际基准测试中优于DeepSeek-MoE-16B-Chat，并在32k长上下文场景下展现出极佳的竞争力。尽管在部分指标上略逊于顶尖的国际模型（如GPT-5 nano和Qwen3-8B），但该模型在意大利语原生大模型领域取得了显著进展。

🔬 方法详解

问题定义：论文旨在解决意大利语原生大模型在国际通用基准测试中表现不足，以及在保持高性能的同时如何平衡计算资源消耗（即推理效率）的挑战。

核心思路：采用混合专家（MoE）架构，通过稀疏激活机制（Sparse Activation），在保证模型具备16B参数量级知识容量的同时，仅激活3B参数进行推理，从而在性能与计算开销之间取得最优平衡。

技术框架：该模型基于MoE架构构建，包含多个专家网络。在推理过程中，路由机制根据输入动态选择激活部分专家，从而实现对复杂任务的针对性处理，并支持长达32k的上下文窗口，以适应长文本分析需求。

关键创新：模型的核心创新在于针对意大利语进行了深度优化，同时在MoE架构设计上实现了对DeepSeek-MoE-16B-Chat等同类模型的性能超越，特别是在长上下文处理能力上表现出显著的架构优势。

关键设计：模型总参数量为16B，激活参数量为3B。通过在ITALIC等意大利语数据集及ARC、GSM8K等国际基准上的广泛训练与微调，实现了对多语言任务的泛化能力，并针对长序列任务（RULER 32k）进行了专门的上下文窗口优化。

📊 实验亮点

实验结果表明，EngGPT2MoE-16B-A3B在所有测试的国际基准上均优于DeepSeek-MoE-16B-Chat。在RULER 32k长上下文测试中，该模型表现出同类模型中的最佳性能。在AIME24/25等数学推理任务中，其表现优于Llama-3.1-8B-Instruct等主流稠密模型，证明了其在复杂推理任务上的强大潜力。

🎯 应用场景

该模型主要应用于需要高性能意大利语处理能力的场景，如企业级自动化文档分析、多语言智能客服系统、法律与技术文档的自动摘要及复杂逻辑推理任务。其高效的MoE架构使其在资源受限的生产环境中具有极高的部署价值，为意大利语原生AI生态提供了强有力的技术支撑。

📄 摘要（原文）

This report benchmarks the performance of ENGINEERING Ingegneria Informatica S.p.A.'s EngGPT2MoE-16B-A3B LLM, a 16B parameter Mixture of Experts (MoE) model with 3B active parameters. Performance is investigated across a wide variety of representative benchmarks, and is compared against comparably-sized open-source MoE and dense models. In comparison with popular Italian models, namely FastwebMIIA-7B, Minerva-7B, Velvet-14B, and LLaMAntino-3-ANITA-8B, EngGPT2MoE-16B-A3B performs as well or better on international benchmarks: ARC-Challenge, GSM8K, AIME24, AIME25, MMLU, and HumanEval (HE). It achieves the best performance for the longest context setting (32k) of the RULER benchmark. On the Italian benchmark dataset ITALIC, the model performs as well or better than the other models except for Velvet-14B, which outperforms it. Compared with popular MoE models of comparable size, the new model reports higher values than DeepSeek-MoE-16B-Chat on all considered benchmarks. It has higher values than Moonlight-16B-A3B on HE, MMLU, AIME24, AIME25, GSM8K, and the 32k RULER setting, but lower on BFCL and some ARC and ITALIC settings. Finally it has lower values than GPT-OSS-20B on most benchmarks, including HE, MMLU, AIME24, AIME25, GSM8K, ARC, BFCL, and the RULER 32k. When compared with popular dense models, EngGPT2MoE-16B-A3B reports higher values on AIME24 and AIME25 than Llama-3.1-8B-Instruct, Gemma-3-12b-it, and Ministral-3-8BInstruct-2512-BF16, but lower values on ITALIC, BFCL, and RULER with a 32k context. When performance is aggregated across all benchmark metrics, EngGPT2MoE-16B-A3B shows higher performance than the Italian models under evaluation while achieving lower results than some of the most performant international models, in particular GPT-5 nano and Qwen3-8B. Taken together, our findings find the new model to be a step forward for native Italian Large Language Models.

Benchmarking EngGPT2-16B-A3B against Comparable Italian and International Open-source LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理