Guard: Scalable Straggler Detection and Node Health Management for Large-Scale Training

📄 arXiv: 2605.17879v1 📥 PDF

作者: Guanliang Liu, Abhinandan Patni, Congzhu Lin, Zoe Zeng, Jack Wittmayer, Josh Wu, Ashvin Nihalani, Binxuan Huang, Yinghong Liu, Rory Na, Anthony Ko, Alexander Zhipa, Cong Cheng, Mi Sun, Vijay Rajakumar, Rejith George Joseph, Parthasarathy Govindarajen

分类: cs.DC, cs.AI, cs.LG

发布日期: 2026-05-18

备注: Proceedings of the 9 th MLSys Conference, Bellevue, WA, USA, 2026


💡 一句话要点

Guard:用于大规模训练的可扩展Straggler检测和节点健康管理系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大规模训练 Straggler检测 节点健康管理 性能监控 故障诊断

📋 核心要点

  1. 大规模模型训练易受fail-slow节点影响,现有健康检查侧重功能正确性,难以发现性能缓慢下降。
  2. Guard结合在线性能监控与离线节点扫描,主动检测straggler并鉴定节点健康状况。
  3. Guard将FLOPs利用率提升高达1.7倍,训练步长方差降低至1%,显著提升MTTF并降低运维成本。

📝 摘要(中文)

训练前沿规模的基础模型需要在数月时间内协调数万个GPU,即使是微小的性能下降也会累积成巨大的效率损失。现有的健康检查机制,如NCCL测试或GPU老化测试,主要关注功能正确性,通常无法检测到悄无声息地降低系统性能的fail-slow行为。本文提出了Guard,一个可扩展的系统,用于检测大规模训练集群中的straggler并确保节点健康。Guard结合了训练期间的轻量级在线性能监控和离线节点扫描机制,该机制在节点参与生产工作负载之前系统地评估和鉴定节点。这种设计使Guard能够检测到传统诊断无法捕获的急性故障和长期存在的fail-slow行为。在大型基础模型预训练工作负载上的部署表明,Guard将平均FLOPs利用率提高了高达1.7倍,将run-to-run训练步长方差从20%降低到1%,提高了平均故障间隔时间(MTTF),并显著降低了运营和调试开销。这些结果表明,主动的straggler检测和系统的节点鉴定对于维持稳定和高效的大规模训练至关重要。

🔬 方法详解

问题定义:大规模模型训练中,由于硬件或软件问题,部分节点可能出现性能下降(fail-slow),导致整体训练效率降低。现有的健康检查机制主要关注节点的功能是否正常,例如能否完成计算任务,而忽略了节点性能的细微变化。这些fail-slow节点会成为训练过程中的straggler,拖慢整体进度,增加训练时间和成本。现有方法难以有效检测和隔离这些straggler。

核心思路:Guard的核心思路是结合在线性能监控和离线节点扫描,实现对straggler的主动检测和对节点健康状况的全面评估。在线监控可以实时捕捉训练过程中的性能异常,离线扫描则可以对节点进行更深入的诊断,从而发现潜在的fail-slow问题。通过这种双管齐下的方法,Guard能够及时发现并隔离straggler,确保训练的稳定性和效率。

技术框架:Guard包含两个主要模块:在线性能监控和离线节点扫描。在线性能监控模块在训练过程中实时收集节点的性能指标,例如GPU利用率、内存使用率、网络带宽等。通过分析这些指标,可以及时发现性能异常的节点。离线节点扫描模块则定期对集群中的节点进行全面的健康检查,包括CPU、GPU、内存、网络等各个方面的测试。这些测试可以发现潜在的硬件或软件问题,从而预防fail-slow行为的发生。

关键创新:Guard的关键创新在于其结合了在线和离线两种检测机制,能够全面地评估节点健康状况。传统的健康检查方法往往只关注节点的功能是否正常,而忽略了节点性能的细微变化。Guard通过在线监控实时捕捉性能异常,并通过离线扫描进行深入诊断,从而能够更有效地检测和隔离straggler。此外,Guard还采用了可扩展的设计,能够支持大规模训练集群的需求。

关键设计:Guard的在线性能监控模块采用了轻量级的设计,以避免对训练过程产生过大的干扰。该模块只收集必要的性能指标,并采用高效的数据处理算法,从而降低了计算和存储开销。离线节点扫描模块则采用了模块化的设计,可以根据不同的硬件和软件环境选择不同的测试用例。此外,Guard还提供了一套完善的API,方便用户自定义监控指标和测试用例。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Guard在大型基础模型预训练工作负载上的部署,将平均FLOPs利用率提高了高达1.7倍,将run-to-run训练步长方差从20%降低到1%,显著提高了平均故障间隔时间(MTTF),并显著降低了运营和调试开销。这些结果表明Guard能够有效提升大规模训练的效率和稳定性。

🎯 应用场景

Guard可应用于大规模深度学习模型的训练,尤其是在需要长时间运行和高资源利用率的场景下,例如预训练大型语言模型、训练图像识别模型等。通过提高训练效率和稳定性,Guard可以降低训练成本,缩短开发周期,并加速人工智能技术的应用。

📄 摘要(原文)

Training frontier-scale foundation models involves coordinating tens of thousands of GPUs over multi-month runs, where even minor performance degradations can accumulate into substantial efficiency losses. Existing health-check mechanisms, such as NCCL tests or GPU burn-in, primarily focus on functional correctness and often fail to detect fail-slow behaviors that silently degrade system performance. In this paper, we present Guard, a scalable system for detecting stragglers and ensuring node health in large-scale training clusters. Guard combines lightweight online performance monitoring during training with an offline node-sweep mechanism that systematically evaluates and qualifies nodes before they participate in production workloads. This design enables Guard to detect both acute failures and long-running fail-slow behaviors that traditional diagnostics cannot capture. Deployed on large-scale foundation model pretraining workloads, Guard improves mean FLOPs utilization by up to 1.7x, reduces run-to-run training step variance from 20% to 1%, increases mean time to failure (MTTF), and significantly reduces operational and debugging overhead. These results demonstrate that proactive straggler detection and systematic node qualification are critical for maintaining stable and efficient large-scale training.