TierCheck: Tiered Checkpointing for Fault Tolerance in Large Language Model Training

📄 arXiv: 2605.17821v1 📥 PDF

作者: Shujie Han, Feng Jiang, Patrick P. C. Lee, Xiao Zhang, Zhijie Huang, Nannan Zhao, Xiaonan Zhao, Lichen Pan

分类: cs.DC, cs.AI

发布日期: 2026-05-18


💡 一句话要点

TierCheck:面向大语言模型训练的异构容错分层检查点系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 容错训练 检查点机制 分层存储 分布式训练

📋 核心要点

  1. 现有检查点系统在状态保存开销和恢复速度之间存在权衡,无法有效应对LLM训练中异构的故障类型。
  2. TierCheck通过三层存储结构,将轻量级差异检查点保存在本地和对等内存,重量级基础检查点异步迁移到远程存储,实现快速恢复和低开销。
  3. 实验表明,TierCheck能有效降低训练开销,将端到端检查点时间缩短到10秒以下,并支持高频检查点。

📝 摘要(中文)

大语言模型(LLM)训练经常被各种故障中断,从常见的GPU崩溃到灾难性的集群范围中断。现有的检查点系统依赖于单片、单层存储后端,迫使在状态保存开销和恢复速度之间进行权衡。我们提出了TierCheck,一种集群感知的分层检查点系统,它将存储位置与故障异构性对齐。TierCheck采用三层设计,在本地和对等内存中维护轻量级差异检查点,以实现快速的局部恢复,同时异步地将重量级基础检查点迁移到远程持久存储。它还确保跨层级的严格全局一致性,而不会暂停训练,并在恢复期间实现快速的集群感知检查点恢复。对高达400亿参数模型的评估表明,TierCheck实现了低训练开销,将端到端检查点时间减少到10秒以下,并支持高频检查点,最终在低开销持久性和快速恢复之间取得了最佳平衡。

🔬 方法详解

问题定义:现有大语言模型训练的检查点机制通常采用单层存储,无法兼顾快速恢复和低存储开销。频繁的检查点写入会显著增加训练时间,而低频检查点则会导致故障恢复时丢失大量训练进度。此外,不同类型的故障(如GPU崩溃和集群中断)需要不同的恢复策略,单层存储难以有效应对。

核心思路:TierCheck的核心思想是利用分层存储体系,根据故障恢复速度和存储成本的需求,将检查点数据分层存放。轻量级的差异检查点存储在本地和对等内存中,用于快速恢复常见的局部故障;重量级的基础检查点则异步存储在远程持久存储中,用于应对更严重的集群范围故障。通过这种分层策略,TierCheck能够在保证快速恢复的同时,降低存储开销。

技术框架:TierCheck采用三层存储架构:第一层是本地内存,用于存储最新的差异检查点;第二层是对等内存,用于存储稍早的差异检查点,提供冗余备份;第三层是远程持久存储,用于存储完整的基础检查点。训练过程中,系统定期将差异检查点写入本地和对等内存,并异步地将基础检查点写入远程存储。恢复时,系统首先尝试从本地内存恢复,如果失败则尝试从对等内存恢复,最后从远程存储恢复。

关键创新:TierCheck的关键创新在于其集群感知的分层检查点机制。它能够根据故障的类型和严重程度,选择合适的存储层进行恢复,从而实现快速且高效的容错。此外,TierCheck还采用了异步checkpointing机制,避免了checkpointing过程对训练的阻塞。

关键设计:TierCheck使用差异检查点来减少存储开销。差异检查点只存储模型参数的增量更新,而不是完整的模型状态。系统定期将多个差异检查点合并成一个基础检查点,并将其写入远程存储。为了保证数据一致性,TierCheck采用了全局一致性协议,确保所有存储层的数据都是一致的。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TierCheck能够显著降低大语言模型训练的检查点开销。对于高达400亿参数的模型,TierCheck可以将端到端检查点时间减少到10秒以下,并且支持高频检查点。与传统的单层检查点系统相比,TierCheck能够在保证快速恢复的同时,显著降低存储开销。

🎯 应用场景

TierCheck可广泛应用于大规模分布式大语言模型训练场景,尤其是在计算资源不稳定或容易发生故障的环境中。通过提供高效的容错机制,TierCheck能够显著缩短模型训练时间,降低训练成本,并提高训练的可靠性。该技术也有潜力应用于其他需要高可靠性和快速恢复的分布式机器学习任务。

📄 摘要(原文)

Large Language Model (LLM) training is frequently interrupted by a heterogeneous spectrum of failures, from common GPU crashes to catastrophic cluster-wide outages. Existing checkpointing systems rely on monolithic, single-tier storage backend, forcing a trade-off between state-saving overhead and recovery speed. We propose TierCheck, a cluster-aware tiered checkpointing system that aligns storage placement with failure heterogeneity. TierCheck adopts a three-tier design that maintains lightweight differential checkpoints in local and peer memory for fast localized recovery, while asynchronously migrating heavyweight base checkpoints to remote persistent storage. It also ensures strict global consistency across tiers without stalling training, and achieves fast cluster-aware checkpoint restoration during recovery. Evaluations on models up to 40 billion parameters show that TierCheck achieves low training overhead, reduces end-to-end checkpointing time to under 10s, and supports high-frequency checkpointing, ultimately striking an optimal balance between low-overhead persistence and fast recovery.