Training Report of TeleChat3-MoE

📄 arXiv: 2512.24157v1 📥 PDF

作者: Xinzhang Liu, Chao Wang, Zhihao Yang, Zhuo Jiang, Xuncheng Zhao, Haoran Wang, Lei Li, Dongdong He, Luobin Liu, Kaizhe Yuan, Han Gao, Zihan Wang, Yitong Yao, Sishi Xiong, Wenmin Deng, Haowei He, Kaidong Yu, Yu Zhao, Ruiyu Fang, Yuhao Jiang, Yingyan Li, Xiaohui Hu, Xi Yu, Jingqi Li, Yanwei Liu, Qingli Li, Xinyu Shi, Junhao Niu, Chengnuo Huang, Yao Xiao, Ruiwen Wang, Fengkai Li, Luwen Pu, Kaipeng Jia, Fubei Yao, Yuyao Huang, Xuewei He, Zhuoru Jiang, Ruiting Song, Rui Xue, Qiyi Xie, Jie Zhang, Zilu Huang, Zhaoxi Zhang, Zhilong Lu, Yanhan Zhang, Yin Zhang, Yanlei Xue, Zhu Yuan, Teng Su, Xin Jiang, Shuangyong Song, Yongxiang Li, Xuelong Li

分类: cs.CL

发布日期: 2025-12-30


💡 一句话要点

TeleChat3-MoE训练报告:构建可靠高效的超大规模MoE模型训练基础设施

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大规模语言模型 混合专家模型 分布式训练 并行计算 性能优化 Ascend NPU 数值精度验证

📋 核心要点

  1. 现有大规模语言模型训练面临硬件平台差异和分布式并行策略带来的数值精度一致性挑战。
  2. TeleChat3-MoE通过系统性的算子级和端到端数值精度验证,确保跨平台和并行策略的一致性。
  3. 该工作提出了一系列性能优化策略,包括流水线调度、数据调度、通信优化和算子融合,显著提升了训练吞吐量。

📝 摘要(中文)

TeleChat3-MoE是TeleChat系列最新的大型语言模型,采用了混合专家(MoE)架构,参数规模从1050亿到超过1万亿,并在Ascend NPU集群上进行端到端训练。本技术报告主要介绍了支撑可靠且高效地扩展到前沿模型规模的底层训练基础设施。我们详细阐述了算子级别和端到端的数值精度验证方法,确保了跨硬件平台和分布式并行策略的一致性。此外,我们还介绍了一系列性能优化方法,包括交错流水线调度、面向长序列训练的注意力感知数据调度、用于专家并行分层和重叠通信以及基于DVM的算子融合。提出了一个系统的并行化框架,利用分析估计和整数线性规划来优化多维并行配置。此外,我们还介绍了集群级优化的方法,解决了大规模训练任务期间的主机和设备瓶颈。这些基础设施的进步显著提高了吞吐量,并在包含数千个设备的集群上实现了接近线性的扩展,为硬件生态系统上大规模语言模型开发提供了坚实的基础。

🔬 方法详解

问题定义:大规模语言模型训练面临着算力需求巨大、训练时间长、硬件资源利用率低等问题。尤其是在混合专家模型(MoE)中,如何高效地进行专家并行,减少通信开销,以及如何保证在不同硬件平台和并行策略下的数值精度一致性,是亟待解决的难题。现有方法在超大规模模型训练时,往往难以达到理想的扩展性和效率。

核心思路:TeleChat3-MoE训练基础设施的核心思路是通过系统性的优化,充分利用Ascend NPU集群的算力,实现高效的分布式训练。这包括算子级别的精度验证、多维并行策略优化、通信优化以及集群级别的资源调度,从而在保证模型精度的前提下,显著提升训练速度和扩展性。

技术框架:TeleChat3-MoE的训练框架主要包含以下几个关键模块:1) 数值精度验证模块,用于确保跨平台和并行策略的数值一致性;2) 多维并行策略优化模块,利用分析估计和整数线性规划来优化数据并行、模型并行和专家并行等策略;3) 通信优化模块,采用分层和重叠通信来减少专家并行带来的通信开销;4) 性能优化模块,包括交错流水线调度、注意力感知数据调度和基于DVM的算子融合;5) 集群级优化模块,用于解决主机和设备瓶颈。

关键创新:该工作的主要创新点在于:1) 提出了系统的数值精度验证方法,保证了跨平台和并行策略的一致性;2) 设计了多维并行策略优化框架,能够根据模型和硬件特性自动选择最优的并行配置;3) 实现了分层和重叠通信,有效降低了专家并行带来的通信开销;4) 引入了DVM-based算子融合,进一步提升了计算效率。

关键设计:在多维并行策略优化中,采用了整数线性规划来寻找最优的并行配置。在通信优化中,采用了分层通信,将通信范围限制在每个专家组内,减少了全局通信的开销。在算子融合中,采用了DVM技术,将多个算子融合为一个算子,减少了算子调用的开销。注意力感知数据调度则根据注意力机制的特性,优化了数据的传输顺序,减少了数据传输的延迟。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TeleChat3-MoE的训练基础设施在包含数千个设备的Ascend NPU集群上实现了接近线性的扩展,显著提高了训练吞吐量。通过采用多种优化策略,有效解决了大规模模型训练中的性能瓶颈,为后续更大规模模型的训练奠定了基础。具体的性能数据和对比基线(如果论文中提供)将在后续的详细实验报告中给出。

🎯 应用场景

该研究成果可广泛应用于大规模语言模型的训练和部署,尤其是在需要处理长序列和复杂任务的场景下。例如,可以应用于智能客服、机器翻译、文本生成、代码生成等领域,为用户提供更智能、更高效的服务。此外,该研究对于推动国产AI芯片的发展和应用具有重要意义。

📄 摘要(原文)

TeleChat3-MoE is the latest series of TeleChat large language models, featuring a Mixture-of-Experts (MoE) architecture with parameter counts ranging from 105 billion to over one trillion,trained end-to-end on Ascend NPU cluster. This technical report mainly presents the underlying training infrastructure that enables reliable and efficient scaling to frontier model sizes. We detail systematic methodologies for operator-level and end-to-end numerical accuracy verification, ensuring consistency across hardware platforms and distributed parallelism strategies. Furthermore, we introduce a suite of performance optimizations, including interleaved pipeline scheduling, attention-aware data scheduling for long-sequence training,hierarchical and overlapped communication for expert parallelism, and DVM-based operator fusion. A systematic parallelization framework, leveraging analytical estimation and integer linear programming, is also proposed to optimize multi-dimensional parallelism configurations. Additionally, we present methodological approaches to cluster-level optimizations, addressing host- and device-bound bottlenecks during large-scale training tasks. These infrastructure advancements yield significant throughput improvements and near-linear scaling on clusters comprising thousands of devices, providing a robust foundation for large-scale language model development on hardware ecosystems.