Aeolus: A Multi-structural Flight Delay Dataset

📄 arXiv: 2510.26616v2 📥 PDF

作者: Lin Xu, Xinyun Yuan, Yuxuan Liang, Suwan Yin, Yuankai Wu

分类: cs.LG, cs.AI

发布日期: 2025-10-30 (更新: 2025-10-31)

🔗 代码/项目: GITHUB


💡 一句话要点

Aeolus:一个用于提升航班延误预测的多结构飞行延误数据集

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 航班延误预测 多模态数据 表格数据 图神经网络 时间序列建模

📋 核心要点

  1. 现有航班延误数据集缺乏对时空动态的建模能力,限制了预测精度和泛化性。
  2. Aeolus数据集通过引入航班链和航班网络图,捕捉延误在时间和空间上的传播模式。
  3. 该数据集包含超过5000万次航班的数据,并提供了基线实验和预处理工具,方便研究人员使用。

📝 摘要(中文)

我们介绍了Aeolus,一个大规模的多模态航班延误数据集,旨在推进航班延误预测的研究,并支持表格数据基础模型的发展。现有的数据集通常局限于扁平的表格结构,无法捕捉延误传播中固有的时空动态。Aeolus通过提供三个对齐的模态来解决这一限制:(i)一个包含超过5000万次航班的丰富运营、气象和机场级别特征的表格数据集;(ii)一个航班链模块,用于建模沿连续航段的延误传播,捕捉上游和下游的依赖关系;(iii)一个航班网络图,编码共享飞机、机组人员和机场资源连接,从而实现跨航班的关系推理。该数据集经过精心构建,具有时间分割、全面的特征和严格的泄漏预防,以支持真实和可重复的机器学习评估。Aeolus支持广泛的任务,包括回归、分类、时间结构建模和图学习,作为一个跨表格、序列和图模态的统一基准。我们发布了基线实验和预处理工具,以方便采用。Aeolus填补了特定领域建模和通用结构化数据研究的关键空白。我们的源代码和数据可以在https://github.com/Flnny/Delay-data上访问。

🔬 方法详解

问题定义:现有航班延误预测数据集通常采用扁平表格结构,忽略了航班延误在时间和空间上的传播特性。这种简化导致模型无法有效捕捉延误的上下游依赖关系,限制了预测的准确性和鲁棒性。此外,缺乏统一的基准数据集阻碍了不同模型的公平比较和领域研究的进展。

核心思路:Aeolus数据集的核心思路是构建一个多模态的数据集,包含表格数据、航班链和航班网络图三种模态,从而全面捕捉航班延误的影响因素和传播路径。通过航班链建模延误的时间依赖关系,通过航班网络图建模延误的空间依赖关系,从而实现更准确的延误预测。

技术框架:Aeolus数据集的构建包括以下几个主要模块:1) 数据收集与清洗:收集了超过5000万次航班的运营、气象和机场级别数据,并进行了数据清洗和预处理。2) 航班链构建:根据航班的起飞和到达时间,构建航班链,用于建模延误的时间依赖关系。3) 航班网络图构建:根据航班共享的飞机、机组人员和机场资源,构建航班网络图,用于建模延误的空间依赖关系。4) 数据集划分:将数据集划分为训练集、验证集和测试集,并进行时间分割,以防止数据泄漏。

关键创新:Aeolus数据集的关键创新在于其多模态的结构,它不仅包含传统的表格数据,还引入了航班链和航班网络图两种模态。这种多模态的结构能够更全面地捕捉航班延误的影响因素和传播路径,从而提高延误预测的准确性。此外,Aeolus数据集还提供了基线实验和预处理工具,方便研究人员使用。

关键设计:在航班链的构建中,考虑了航班之间的时序关系,并使用滑动窗口来捕捉不同时间窗口内的延误传播模式。在航班网络图的构建中,使用了不同的节点和边来表示航班、机场、飞机和机组人员之间的关系,并使用图神经网络来学习节点和边的表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Aeolus数据集包含超过5000万次航班的数据,并提供了三种模态的数据:表格数据、航班链和航班网络图。基线实验表明,使用Aeolus数据集训练的模型在航班延误预测任务上取得了显著的性能提升。该数据集的发布为航班延误预测和结构化数据建模领域的研究提供了有力的支持。

🎯 应用场景

Aeolus数据集可用于开发更准确的航班延误预测模型,从而帮助航空公司优化航班调度、减少延误带来的经济损失,并提高旅客的出行体验。此外,该数据集还可以用于研究航班延误的传播机制,为机场和空管部门提供决策支持。该数据集也为表格数据基础模型研究提供了高质量的数据。

📄 摘要(原文)

We introduce Aeolus, a large-scale Multi-modal Flight Delay Dataset designed to advance research on flight delay prediction and support the development of foundation models for tabular data. Existing datasets in this domain are typically limited to flat tabular structures and fail to capture the spatiotemporal dynamics inherent in delay propagation. Aeolus addresses this limitation by providing three aligned modalities: (i) a tabular dataset with rich operational, meteorological, and airportlevel features for over 50 million flights; (ii) a flight chain module that models delay propagation along sequential flight legs, capturing upstream and downstream dependencies; and (iii) a flight network graph that encodes shared aircraft, crew, and airport resource connections, enabling cross-flight relational reasoning. The dataset is carefully constructed with temporal splits, comprehensive features, and strict leakage prevention to support realistic and reproducible machine learning evaluation. Aeolus supports a broad range of tasks, including regression, classification, temporal structure modeling, and graph learning, serving as a unified benchmark across tabular, sequential, and graph modalities. We release baseline experiments and preprocessing tools to facilitate adoption. Aeolus fills a key gap for both domain-specific modeling and general-purpose structured data research.Our source code and data can be accessed at https://github.com/Flnny/Delay-data