Evaluating the Generalization Ability of Spatiotemporal Model in Urban Scenario

作者: Hongjun Wang, Jiyuan Chen, Tong Pan, Zheng Dong, Lingyu Zhang, Renhe Jiang, Xuan Song

分类: cs.LG, cs.AI, cs.CY, cs.DB

发布日期: 2024-10-07 (更新: 2024-10-09)

💡 一句话要点

提出时空分布外基准测试，评估城市场景时空模型泛化能力

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 时空模型 泛化能力 分布外学习 城市计算 基准测试 深度学习 交通预测

📋 核心要点

现有时空模型评估集中于交通场景，缺乏对模型在不断演变的城市环境中泛化能力的充分考察。
论文提出ST-OOD基准，包含六个城市场景的分布内和分布外数据，用于全面评估时空模型的泛化性能。
实验表明，现有先进时空模型在分布外数据上性能显著下降，甚至不如MLP，表明模型过度拟合。

📝 摘要（中文）

时空神经网络在城市场景中通过有效捕捉时间和空间相关性展现出巨大潜力。然而，城市环境不断发展，当前的模型评估通常仅限于交通场景，并且主要使用训练后几周内收集的数据来评估模型性能。这些模型的泛化能力在很大程度上仍未被探索。为了解决这个问题，我们提出了一个时空分布外（ST-OOD）基准，它包含六个城市场景：共享单车、311服务、行人计数、交通速度、交通流量、网约车需求和共享单车，每个场景都包含分布内（同年）和分布外（次年）设置。我们广泛评估了最先进的时空模型，发现它们的性能在分布外设置中显著下降，大多数模型的性能甚至比简单的多层感知器（MLP）还要差。我们的研究结果表明，当前领先的方法倾向于过度依赖参数来过度拟合训练数据，这可能导致在分布内数据上表现良好，但在分布外数据上通常会导致较差的泛化。我们还研究了dropout是否可以减轻过度拟合的负面影响。我们的结果表明，轻微的dropout率可以显著提高大多数数据集上的泛化性能，而对分布内性能的影响最小。然而，平衡分布内和分布外性能仍然是一个具有挑战性的问题。我们希望提出的基准能够鼓励对这一关键问题的进一步研究。

🔬 方法详解

问题定义：现有时空模型在城市场景中取得了不错的成果，但其泛化能力，尤其是在面对数据分布变化时（例如，从今年到明年），缺乏充分的评估。现有的评估方法通常只关注交通场景，并且使用训练后很短时间内的数据，无法真实反映模型在长期运行中的性能。因此，如何评估和提升时空模型在城市场景中的泛化能力是一个重要的问题。

核心思路：论文的核心思路是通过构建一个更具挑战性的评估基准（ST-OOD）来暴露现有模型的泛化问题。该基准包含多个城市场景，并为每个场景提供分布内（同一年）和分布外（下一年）的数据。通过在这个基准上评估现有模型，可以更清晰地了解它们在面对数据分布变化时的表现。同时，论文还探索了dropout作为一种正则化方法，以提高模型的泛化能力。

技术框架：论文构建的ST-OOD基准包含六个城市场景：共享单车、311服务、行人计数、交通速度、交通流量和网约车需求。对于每个场景，都提供了分布内（同一年）和分布外（下一年）的数据。论文使用这些数据来评估一系列最先进的时空模型，并分析它们在分布内和分布外数据上的性能差异。此外，论文还研究了dropout对模型泛化能力的影响。

关键创新：论文的关键创新在于提出了ST-OOD基准，这是一个专门用于评估时空模型在城市场景中泛化能力的基准。与现有的评估方法相比，ST-OOD基准更加全面和具有挑战性，能够更真实地反映模型在实际应用中的性能。此外，论文还探索了dropout作为一种提高模型泛化能力的方法，并验证了其有效性。

关键设计：ST-OOD基准的关键设计在于包含了多个城市场景，并为每个场景提供了分布内和分布外的数据。这种设计使得可以全面评估模型在不同场景和不同数据分布下的性能。在实验中，论文探索了不同的dropout率，并分析了它们对模型性能的影响。具体的模型结构和训练细节根据所评估的现有模型而定，论文主要关注的是在ST-OOD基准上的评估结果和dropout的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有先进时空模型在ST-OOD基准的分布外数据上性能显著下降，甚至不如简单的MLP模型。通过引入适当的dropout率，可以显著提高模型在分布外数据上的泛化性能，同时对分布内性能的影响很小。例如，在某些数据集上，dropout可以将分布外性能提升超过10%。

🎯 应用场景

该研究成果可应用于智慧城市建设中的多个领域，例如交通流量预测、公共服务需求预测、共享单车调度等。通过提高时空模型的泛化能力，可以提升城市管理的效率和智能化水平，为居民提供更优质的服务。此外，该研究提出的ST-OOD基准可以作为评估和改进时空模型的重要工具。

📄 摘要（原文）

Spatiotemporal neural networks have shown great promise in urban scenarios by effectively capturing temporal and spatial correlations. However, urban environments are constantly evolving, and current model evaluations are often limited to traffic scenarios and use data mainly collected only a few weeks after training period to evaluate model performance. The generalization ability of these models remains largely unexplored. To address this, we propose a Spatiotemporal Out-of-Distribution (ST-OOD) benchmark, which comprises six urban scenario: bike-sharing, 311 services, pedestrian counts, traffic speed, traffic flow, ride-hailing demand, and bike-sharing, each with in-distribution (same year) and out-of-distribution (next years) settings. We extensively evaluate state-of-the-art spatiotemporal models and find that their performance degrades significantly in out-of-distribution settings, with most models performing even worse than a simple Multi-Layer Perceptron (MLP). Our findings suggest that current leading methods tend to over-rely on parameters to overfit training data, which may lead to good performance on in-distribution data but often results in poor generalization. We also investigated whether dropout could mitigate the negative effects of overfitting. Our results showed that a slight dropout rate could significantly improve generalization performance on most datasets, with minimal impact on in-distribution performance. However, balancing in-distribution and out-of-distribution performance remains a challenging problem. We hope that the proposed benchmark will encourage further research on this critical issue.

Evaluating the Generalization Ability of Spatiotemporal Model in Urban Scenario

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理