Towards a Proactive Autoscaling Framework for Data Stream Processing at the Edge using GRU and Transfer Learning

📄 arXiv: 2507.14597v1 📥 PDF

作者: Eugene Armah, Linda Amoako Bannning

分类: cs.DC, cs.CV, cs.LG, cs.PF

发布日期: 2025-07-19


💡 一句话要点

提出基于GRU和迁移学习的主动边缘数据流处理自动伸缩框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 边缘计算 数据流处理 自动伸缩 GRU神经网络 迁移学习

📋 核心要点

  1. 边缘数据流处理面临快速工作负载波动,传统被动伸缩方法在性能下降后才调整,易违反SLA。
  2. 提出基于GRU预测负载,结合迁移学习适应在线环境,动态调整算子并行度的主动伸缩框架。
  3. 实验表明,轻量级GRU模型在真实数据集上SMAPE值达1.3%,优于CNN、ARIMA等模型,且训练时间更短。

📝 摘要(中文)

随着数字经济产生海量数据,高速数据处理变得至关重要。边缘计算和数据流处理(DSP)是当前及时数据处理的范例。边缘计算将资源放置在更靠近数据生成的位置,而流处理分析运动中无界的高速数据。然而,边缘流处理面临着快速的工作负载波动,这使得资源配置变得复杂。资源分配不足会导致瓶颈,而过度分配会导致浪费。现有的被动方法,如基于阈值的策略和排队论,仅在性能下降后才进行扩展,可能违反服务水平协议(SLA)。虽然强化学习(RL)通过学习最优运行时自适应策略的智能体提供了一种主动方法,但它需要大量的模拟。此外,预测性机器学习模型面临在线分布和概念漂移,这会降低其准确性。我们提出了一个三步解决方案来解决主动边缘流处理自动伸缩问题。首先,GRU神经网络使用真实世界和合成的DSP数据集预测上游负载。其次,一个迁移学习框架使用DTW算法和联合分布自适应将预测模型集成到在线流处理系统中,以处理离线和在线域之间的差异。最后,一个水平自动伸缩模块根据预测的负载动态调整算子并行度,同时考虑边缘资源约束。用于负载预测的轻量级GRU模型在真实世界的数据集上记录了高达1.3%的SMAPE值。在SMAPE和RMSE评估指标上,它优于CNN、ARIMA和Prophet,并且训练时间低于计算密集型的RL模型。

🔬 方法详解

问题定义:论文旨在解决边缘计算环境下,数据流处理系统面临的资源自动伸缩问题。现有方法,如基于阈值的策略和排队论,属于被动式伸缩,只能在性能下降后才做出反应,无法满足服务水平协议(SLA)。强化学习虽然可以主动学习伸缩策略,但需要大量的模拟数据,计算成本高昂。此外,预测模型在实际应用中会受到在线数据分布变化(概念漂移)的影响,导致预测精度下降。

核心思路:论文的核心思路是利用GRU神经网络预测未来的负载,并结合迁移学习方法,将离线训练的模型适应到在线环境中,从而实现主动的资源伸缩。通过预测负载,系统可以提前调整资源分配,避免性能瓶颈。迁移学习则解决了离线训练数据与在线真实数据分布不一致的问题,提高了预测模型的泛化能力。

技术框架:该框架包含三个主要步骤:1) 负载预测:使用GRU神经网络预测上游负载。2) 迁移学习:利用DTW算法和联合分布自适应方法,将离线训练的GRU模型迁移到在线流处理系统。3) 水平自动伸缩:根据预测的负载,动态调整算子并行度,同时考虑边缘设备的资源约束。

关键创新:该论文的关键创新在于将GRU神经网络、迁移学习和水平自动伸缩相结合,构建了一个主动的边缘数据流处理自动伸缩框架。与传统的被动伸缩方法相比,该框架能够提前预测负载并进行资源调整,从而避免性能瓶颈。与基于强化学习的方法相比,该框架计算成本更低,且能够更好地适应在线环境的变化。

关键设计:在负载预测阶段,GRU网络被用于捕捉时间序列数据的依赖关系。迁移学习阶段,DTW算法用于对齐离线和在线数据,联合分布自适应方法用于减小两个域之间的分布差异。水平自动伸缩模块则根据预测的负载和边缘设备的资源约束,动态调整算子并行度。具体的网络结构、损失函数和参数设置在论文中未详细说明,属于未知信息。

📊 实验亮点

实验结果表明,该框架中的轻量级GRU模型在真实世界数据集上取得了高达1.3%的SMAPE值,优于CNN、ARIMA和Prophet等传统预测模型。此外,该框架的训练时间也低于计算密集型的强化学习模型,表明其具有更高的效率和实用性。这些结果验证了该框架在边缘数据流处理自动伸缩方面的有效性。

🎯 应用场景

该研究成果可应用于各种边缘计算场景下的数据流处理系统,例如智能交通、工业物联网、智慧城市等。通过主动的资源伸缩,可以提高系统的性能和资源利用率,降低运营成本,并保证服务质量。该框架还可扩展到其他类型的边缘设备和数据流处理应用。

📄 摘要(原文)

Processing data at high speeds is becoming increasingly critical as digital economies generate enormous data. The current paradigms for timely data processing are edge computing and data stream processing (DSP). Edge computing places resources closer to where data is generated, while stream processing analyzes the unbounded high-speed data in motion. However, edge stream processing faces rapid workload fluctuations, complicating resource provisioning. Inadequate resource allocation leads to bottlenecks, whereas excess allocation results in wastage. Existing reactive methods, such as threshold-based policies and queuing theory scale only after performance degrades, potentially violating SLAs. Although reinforcement learning (RL) offers a proactive approach through agents that learn optimal runtime adaptation policies, it requires extensive simulation. Furthermore, predictive machine learning models face online distribution and concept drift that minimize their accuracy. We propose a three-step solution to the proactive edge stream processing autoscaling problem. Firstly, a GRU neural network forecasts the upstream load using real-world and synthetic DSP datasets. Secondly, a transfer learning framework integrates the predictive model into an online stream processing system using the DTW algorithm and joint distribution adaptation to handle the disparities between offline and online domains. Finally, a horizontal autoscaling module dynamically adjusts the degree of operator parallelism, based on predicted load while considering edge resource constraints. The lightweight GRU model for load predictions recorded up to 1.3\% SMAPE value on a real-world data set. It outperformed CNN, ARIMA, and Prophet on the SMAPE and RMSE evaluation metrics, with lower training time than the computationally intensive RL models.