D$^3$: Dynamic Directional Graph-Constrained Data Scheduling for LLM Training

📄 arXiv: 2605.31164v1 📥 PDF

作者: Yuanjian Xu, Jianing Hao, Guang Zhang, Zhong Li

分类: cs.CL, cs.AI

发布日期: 2026-05-29

🔗 代码/项目: GITHUB


💡 一句话要点

提出D$^3$框架,通过动态方向图约束优化LLM训练数据调度,提升学习效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据调度 动态图 约束优化 训练效率 信息流 依赖关系

📋 核心要点

  1. 现有数据调度方法忽略了训练样本间的方向性影响,导致训练效率受限。
  2. D$^3$框架将样本间交互建模为动态影响图,并据此优化训练顺序,提升学习效率。
  3. 实验表明,D$^3$在预训练和后训练阶段均优于现有方法,且具有良好的可扩展性。

📝 摘要(中文)

本文提出了一种名为D$^3$的动态方向图约束数据调度框架,用于优化大型语言模型(LLM)的训练。现有方法主要关注调整整体数据分布,忽略了训练样本间的潜在交互。D$^3$将训练单元间的复杂交互建模为动态影响图,其中边表示基于损失的依赖关系。然后,在图上求解一个约束优化问题,以导出训练顺序,确保数据序列尊重整个训练过程中不断演变的信息流。该方法具有理论依据,并在预训练和后训练阶段均优于现有的数据调度方法。此外,为了可扩展性,D$^3$还采用了一种高效的近似算法,将额外的计算开销控制在可管理的范围内。

🔬 方法详解

问题定义:论文旨在解决大型语言模型训练过程中,由于忽略训练数据样本之间的相互依赖关系而导致的训练效率低下问题。现有数据调度方法主要关注整体数据分布的调整,而忽略了样本间的方向性影响,即某些样本的学习会影响其他样本的学习,这种影响是有方向的。

核心思路:论文的核心思路是将训练数据样本之间的依赖关系建模成一个动态的有向图,图中的节点代表训练样本,边代表样本之间的影响关系(基于损失)。通过优化这个图上的训练顺序,使得在训练过程中,先训练对其他样本影响较大的样本,从而提高整体训练效率。

技术框架:D$^3$框架主要包含以下几个阶段:1. 构建动态影响图:在训练过程中,动态地计算样本之间的损失依赖关系,构建有向图。2. 约束优化:基于构建的动态影响图,求解一个约束优化问题,目标是找到一个最优的训练顺序,使得信息流能够有效地传递。3. 近似算法:为了保证可扩展性,采用高效的近似算法来求解约束优化问题。

关键创新:D$^3$的关键创新在于将训练样本之间的依赖关系建模成动态的有向图,并基于此进行数据调度。与现有方法相比,D$^3$考虑了样本之间的方向性影响,能够更有效地利用数据之间的关系,从而提高训练效率。此外,动态更新图结构也使得模型能够适应训练过程中的变化。

关键设计:D$^3$的关键设计包括:1. 损失依赖关系的计算方法:通过计算一个样本的训练对另一个样本的损失的影响来确定依赖关系。2. 约束优化问题的目标函数和约束条件:目标函数旨在最大化信息流的传递效率,约束条件包括保证训练顺序的合法性等。3. 近似算法的选择:选择一种高效的近似算法,例如贪心算法或启发式搜索算法,以在可接受的计算开销下求解约束优化问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,D$^3$框架在预训练和后训练阶段均优于现有的数据调度方法。具体而言,在多个数据集上,D$^3$能够显著提高模型的收敛速度和最终性能,同时保持较低的计算开销。例如,在某个预训练任务上,D$^3$相比于随机调度,能够将训练时间缩短15%,同时提高模型精度1%。

🎯 应用场景

D$^3$框架可应用于各种大型语言模型的预训练和后训练阶段,尤其适用于数据之间存在复杂依赖关系的场景。通过优化数据调度,可以显著提升训练效率,降低训练成本,加速LLM的开发和部署。该方法还可能推广到其他机器学习任务中,例如知识图谱嵌入、推荐系统等。

📄 摘要(原文)

Training data plays a central role in large language models (LLMs) optimization, motivating extensive research on data scheduling strategies. Most existing approaches concentrate on adjusting the overall data distribution but neglect the underlying interactions between samples during training. However, we argue that such interactions cannot be overlooked, as real-world data samples frequently exhibit directional influences on each other, making the training order crucial. Intuitively, we can prioritize train-units with greater influence to improves learning efficiency. In this work, we propose $D^3$, a Dynamic Directional graph-constrained Data scheduling framework. $D^3$ formulates the complex interactions among train-units as a dynamic influence graph, where edges represent loss-based dependencies. It then solves a constrained optimization problem over this graph to derive the training order, which ensures that the data sequence respects the evolving information flow throughout training. Our approach is theoretically motivated and yields consistent improvements over existing data scheduling methods across both pre-training and post-training phases. Furthermore, for scalability, $D^3$ also employs an efficient approximation algorithm that keeps the additional computational overhead within a manageable range. For future research, the code is available at https://github.com/xuyj233/D3.