DHP: Efficient Scaling of MLLM Training with Dynamic Hybrid Parallelism

📄 arXiv: 2602.21788v1 📥 PDF

作者: Yifan Niu, Han Xiao, Dongyi Liu, Wei Zhou, Jia Li

分类: cs.DC, cs.LG

发布日期: 2026-02-25


💡 一句话要点

提出动态混合并行策略以解决多模态大语言模型训练效率问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 动态混合并行 训练效率 负载均衡 硬件利用率 异构数据集 深度学习

📋 核心要点

  1. 现有的静态并行策略在处理异构多模态数据集时,面临负载不均和硬件利用率低的问题。
  2. 本文提出动态混合并行(DHP),通过自适应调整通信组和并行度来提升训练效率。
  3. 实验结果显示,DHP在训练吞吐量上比Megatron-LM和DeepSpeed提升了1.36倍,且扩展效率接近线性。

📝 摘要(中文)

扩展长上下文能力对于多模态大语言模型(MLLMs)至关重要。然而,现实世界中的多模态数据集极为异构。现有训练框架主要依赖静态并行策略,导致负载不均、冗余通信和硬件利用率低下。本文提出动态混合并行(DHP),一种高效的并行策略,能够在MLLM训练过程中自适应地重新配置通信组和并行度。我们推广了非二次幂并行度,并开发了一种多项式时间算法,以在每个训练批次中仅需毫秒级的开销生成近似最优的并行策略。DHP在极端数据变异下仍能保持高硬件效率。实验结果表明,DHP显著优于Megatron-LM和DeepSpeed,在训练吞吐量上实现了高达1.36倍的加速,同时在大规模NPU集群上保持近线性的扩展效率。

🔬 方法详解

问题定义:本文旨在解决多模态大语言模型训练中的负载不均、冗余通信和硬件利用率低下等问题。现有的静态并行策略在面对异构数据集时表现不佳,导致训练效率低下。

核心思路:动态混合并行(DHP)通过自适应地重新配置通信组和并行度,能够有效应对数据的异构性,从而提升训练效率。该方法的设计旨在减少冗余通信和提高硬件利用率。

技术框架:DHP的整体架构包括动态调整的通信组和并行度模块。首先,系统根据当前数据的特性评估负载情况,然后动态调整并行策略,以实现最佳的资源利用。

关键创新:DHP的核心创新在于推广了非二次幂的并行度,并开发了多项式时间算法,能够在毫秒级别内生成近似最优的并行策略。这一方法与现有静态策略的根本区别在于其自适应性和高效性。

关键设计:DHP在参数设置上考虑了数据的异构性,并通过算法优化通信组的配置。损失函数和网络结构的设计也针对高效训练进行了优化,以确保在不同数据条件下的稳定性和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DHP在训练吞吐量上实现了高达1.36倍的加速,相较于Megatron-LM和DeepSpeed有显著提升。此外,DHP在大规模NPU集群上保持了近线性的扩展效率,展示了其在实际应用中的强大潜力。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、计算机视觉和多模态学习等。通过提升多模态大语言模型的训练效率,DHP可以加速模型的开发和部署,推动智能系统在实际应用中的广泛应用,具有重要的实际价值和未来影响。

📄 摘要(原文)

Scaling long-context capabilities is crucial for Multimodal Large Language Models (MLLMs). However, real-world multimodal datasets are extremely heterogeneous. Existing training frameworks predominantly rely on static parallelism strategies, which suffer from severe load imbalance, redundant communication, and suboptimal hardware utilization under data heterogeneity. In this work, we propose Dynamic Hybrid Parallelism (DHP), an efficient parallelism strategy that adaptively reconfigures communication groups and parallelism degrees during MLLM training. We generalize the non-power-of-two parallelism degrees and develop a polynomial-time algorithm to generate near-optimal parallelism strategies with only millisecond-level overhead per training batch. DHP is able to maintain high hardware efficiency even under extreme data variability. Experimental results demonstrate that DHP significantly outperforms Megatron-LM and DeepSpeed, achieving up to 1.36 $\times$ speedup in training throughput while maintaining near-linear scaling efficiency across large-scale NPU clusters.