A Time Series is Worth Five Experts: Heterogeneous Mixture of Experts for Traffic Flow Prediction

作者: Guangyu Wang, Yujie Chen, Ming Gao, Zhiqiao Wu, Jiafu Tang, Jiabi Zhao

分类: cs.AI

发布日期: 2024-09-26

备注: 20 pages, 4 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出异构混合专家模型TITAN，用于解决交通流量预测中变量中心学习不足的问题。

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting)

关键词: 交通流量预测 异构混合专家 时间序列预测 变量中心建模 先验知识 低秩自适应 门控机制

📋 核心要点

现有交通预测模型在每个时间步嵌入多变量和空间关系，阻碍了有效的变量中心学习，导致性能下降。
论文提出异构混合专家模型TITAN，结合序列中心、变量中心和先验知识中心建模，提升预测精度。
在METR-LA和PEMS-BAY数据集上，TITAN相比SOTA模型在各项评估指标上提升了4.37%到11.53%。

📝 摘要（中文）

精确的交通预测面临着巨大的挑战，需要深入理解时间和空间线索以及它们在多个变量之间的复杂交互。交通预测系统的最新进展主要归功于复杂序列中心模型的开发。然而，现有方法通常在每个时间步嵌入多个变量和空间关系，这可能会阻碍有效的变量中心学习，最终导致传统交通预测任务的性能下降。为了克服这些限制，我们引入了变量中心和先验知识中心建模技术。具体来说，我们提出了一种用于交通流量预测的异构混合专家（Heterogeneous Mixture of Experts，TITAN）模型。TITAN最初由三个专注于序列中心建模的专家组成。然后，设计了一种低秩自适应方法，TITAN同时实现了变量中心建模。此外，我们使用先验知识中心建模策略来监督门控过程，以确保准确的路由。在两个公共交通网络数据集METR-LA和PEMS-BAY上的实验表明，TITAN有效地捕获了变量中心的依赖关系，同时确保了准确的路由。因此，与之前的最先进（SOTA）模型相比，它在所有评估指标上都实现了改进，范围从大约4.37％到11.53％。

🔬 方法详解

问题定义：现有交通流量预测模型难以有效学习不同变量之间的独立性和依赖性，因为它们通常将所有变量和空间关系混合在每个时间步中进行处理。这种方式阻碍了模型专注于特定变量的学习，导致预测精度下降。

核心思路：论文的核心思路是设计一个异构混合专家模型，该模型能够同时关注序列信息、变量信息和先验知识。通过将不同的专家分配给不同的建模任务，并使用门控机制根据输入数据的重要性动态地选择专家，从而实现更有效的特征学习和预测。

技术框架：TITAN模型包含三个主要部分：1) 多个专家网络，每个专家专注于序列中心建模；2) 一个低秩自适应模块，用于实现变量中心建模，提取变量间的关系；3) 一个门控网络，用于根据先验知识动态地选择合适的专家组合。整个框架通过端到端的方式进行训练。

关键创新：TITAN的关键创新在于其异构混合专家结构，它允许模型同时关注序列、变量和先验知识。低秩自适应模块是另一个创新点，它能够有效地学习变量之间的依赖关系，而无需显式地建模所有变量之间的交互。此外，使用先验知识监督门控过程，确保了专家选择的准确性。

关键设计：TITAN使用了三个专家网络，具体结构未知，但都专注于序列中心建模。低秩自适应模块通过学习一个低秩矩阵来捕捉变量之间的相关性。门控网络使用softmax函数输出每个专家的权重，权重由先验知识引导。损失函数包括预测损失和门控损失，门控损失用于鼓励门控网络选择与先验知识一致的专家。

🖼️ 关键图片

📊 实验亮点

TITAN模型在METR-LA和PEMS-BAY两个公开交通数据集上进行了评估，实验结果表明，TITAN在所有评估指标上均优于现有的SOTA模型，性能提升范围为4.37%到11.53%。这表明TITAN能够有效地捕获变量中心的依赖关系，并实现更准确的交通流量预测。

🎯 应用场景

该研究成果可应用于智能交通管理系统，例如交通流量预测、交通拥堵预警、路径规划和信号灯控制等。更准确的交通流量预测能够帮助交通管理者更好地优化交通资源分配，提高交通效率，减少交通拥堵，并为公众提供更便捷的出行服务。此外，该方法也可以推广到其他时序预测任务中。

📄 摘要（原文）

Accurate traffic prediction faces significant challenges, necessitating a deep understanding of both temporal and spatial cues and their complex interactions across multiple variables. Recent advancements in traffic prediction systems are primarily due to the development of complex sequence-centric models. However, existing approaches often embed multiple variables and spatial relationships at each time step, which may hinder effective variable-centric learning, ultimately leading to performance degradation in traditional traffic prediction tasks. To overcome these limitations, we introduce variable-centric and prior knowledge-centric modeling techniques. Specifically, we propose a Heterogeneous Mixture of Experts (TITAN) model for traffic flow prediction. TITAN initially consists of three experts focused on sequence-centric modeling. Then, designed a low-rank adaptive method, TITAN simultaneously enables variable-centric modeling. Furthermore, we supervise the gating process using a prior knowledge-centric modeling strategy to ensure accurate routing. Experiments on two public traffic network datasets, METR-LA and PEMS-BAY, demonstrate that TITAN effectively captures variable-centric dependencies while ensuring accurate routing. Consequently, it achieves improvements in all evaluation metrics, ranging from approximately 4.37\% to 11.53\%, compared to previous state-of-the-art (SOTA) models. The code is open at \href{https://github.com/sqlcow/TITAN}{https://github.com/sqlcow/TITAN}.

A Time Series is Worth Five Experts: Heterogeneous Mixture of Experts for Traffic Flow Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理