Deadline-Aware Online Scheduling for LLM Fine-Tuning with Spot Market Predictions
作者: Linggao Kong, Yuedong Xu, Lei Jiao, Chuan Xu
分类: cs.DC, cs.LG
发布日期: 2025-12-24
💡 一句话要点
提出基于预测的在线调度方法以优化LLM微调成本
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 在线调度 临时实例 市场预测 资源优化 深度学习
📋 核心要点
- 现有方法在微调大型语言模型时面临高成本和临时实例市场价格波动的挑战。
- 论文提出了一种结合临时和按需实例的调度算法,利用市场预测来优化资源分配。
- 实验结果显示,该方法在不同市场动态下能够自适应选择最佳策略,性能提升显著。
📝 摘要(中文)
随着基础模型规模的不断扩大,微调的成本也日益增加。尽管GPU临时实例提供了低成本的替代方案,但其价格和可用性的波动使得基于截止日期的调度变得尤为困难。本文通过混合使用临时和按需实例来解决这一问题。我们展示了临时实例市场中价格和可用性的可预测性,以及预测在实现成本高效调度中的重要性和对估计误差的敏感性。我们提出了一种基于承诺水平控制的方法的在线分配算法,并在预测不准确时提供了补充的在线算法。实验结果表明,我们的在线框架能够在不同的市场动态和预测质量下自适应选择最佳策略,性能提升可达54.8%。
🔬 方法详解
问题定义:本文旨在解决在GPU临时实例市场中进行大型语言模型微调时,由于价格波动和可用性不确定性导致的调度困难。现有方法未能有效利用市场预测,导致成本高昂。
核心思路:论文提出了一种基于市场价格和可用性预测的混合实例调度算法,通过承诺水平控制来优化决策过程,从而实现成本效益最大化。
技术框架:整体框架包括市场预测模块、在线分配算法和策略选择算法。市场预测模块负责收集和分析临时实例的价格和可用性数据,在线分配算法根据预测结果进行资源分配,而策略选择算法则从不同策略中学习最佳选择。
关键创新:最重要的创新在于提出了一种结合市场预测的在线调度算法,能够在动态市场环境中自适应调整策略,与传统静态调度方法相比,显著提高了资源利用率和成本效益。
关键设计:算法设计中引入了承诺水平作为决策的约束条件,确保在预测不准确时仍能保持一定的调度性能。同时,策略选择算法的设计使得系统能够在不同参数设置下进行自我优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的在线调度框架在不同的市场动态和预测质量下能够自适应选择最佳策略,性能提升可达54.8%。与基线相比,该方法在资源利用率和成本效益方面表现出显著优势。
🎯 应用场景
该研究的潜在应用领域包括云计算资源管理、深度学习模型训练和大规模数据处理等。通过优化调度策略,能够显著降低微调大型语言模型的成本,提高资源利用效率,具有广泛的实际价值和未来影响。
📄 摘要(原文)
As foundation models grow in size, fine-tuning them becomes increasingly expensive. While GPU spot instances offer a low-cost alternative to on-demand resources, their volatile prices and availability make deadline-aware scheduling particularly challenging. We tackle this difficulty by using a mix of spot and on-demand instances. Distinctively, we show the predictability of prices and availability in a spot instance market, the power of prediction in enabling cost-efficient scheduling and its sensitivity to estimation errors. An integer programming problem is formulated to capture the use of mixed instances under both the price and availability dynamics. We propose an online allocation algorithm with prediction based on the committed horizon control approach that leverages a \emph{commitment level} to enforce the partial sequence of decisions. When this prediction becomes inaccurate, we further present a complementary online algorithm without predictions. An online policy selection algorithm is developed that learns the best policy from a pool constructed by varying the parameters of both algorithms. We prove that the prediction-based algorithm achieves tighter performance bounds as prediction error decreases, while the policy selection algorithm possesses a regret bound of $\mathcal{O}(\sqrt{T})$. Experimental results demonstrate that our online framework can adaptively select the best policy under varying spot market dynamics and prediction quality, consistently outperforming baselines and improving utility by up to 54.8\%.