Adaptive Regime-Aware Stock Price Prediction Using Autoencoder-Gated Dual Node Transformers with Reinforcement Learning Control

📄 arXiv: 2603.19136v1 📥 PDF

作者: Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman

分类: cs.LG, cs.AI, q-fin.ST

发布日期: 2026-03-19

备注: Submitted to IEEE Transactions on Computational Social Systems. 17 pages, 9 figures, 10 tables


💡 一句话要点

提出自编码器门控双节点Transformer与强化学习控制的自适应股票价格预测框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 股票价格预测 自适应学习 自编码器 Transformer网络 强化学习 市场状态识别 量化交易

📋 核心要点

  1. 现有股票预测模型难以适应市场状态变化,尤其是在高波动时期表现不佳,且人工标注市场状态成本高昂。
  2. 提出一种自适应预测框架,利用自编码器识别异常市场状态,并使用强化学习动态调整预测路径。
  3. 实验结果表明,该框架在S&P 500股票预测中显著降低了MAPE,并提高了方向准确率,尤其在高波动时期表现稳健。

📝 摘要(中文)

股票市场表现出依赖于市场状态的特性,为稳定状态优化的预测模型在动荡时期通常会失效。现有方法通常统一对待所有市场状态,或需要手动标注市场状态,这既昂贵又会随着市场动态演变而迅速过时。本文提出了一种自适应预测框架,该框架能够自适应地识别与正常市场状态的偏差,并将数据路由到专门的预测路径。该架构包含三个组件:(1)在正常市场条件下训练的自编码器,通过重建误差识别异常状态;(2)分别针对稳定和事件驱动市场条件专门设计的双节点Transformer网络;(3)一个Soft Actor-Critic强化学习控制器,基于预测性能反馈自适应地调整状态检测阈值和路径融合权重。强化学习组件使系统能够学习自适应状态边界,将标准预测方法失效的市场状态定义为异常。对1982年至2025年期间的20只标准普尔500指数股票进行的实验表明,所提出的框架在没有强化学习控制器的情况下,一日预测的平均绝对百分比误差(MAPE)达到0.68%,在完整的自适应系统下达到0.59%,而基线集成节点Transformer的MAPE为0.80%。完整框架的方向准确率达到72%。该系统在高波动时期保持了稳健的性能,当基线模型超过1.5%时,MAPE低于0.85%。消融研究证实了每个组件都有意义的贡献:移除自编码器路由导致MAPE相对下降36%,其次是SAC控制器(15%)和双路径架构(7%)。

🔬 方法详解

问题定义:股票价格预测面临的挑战在于市场状态的动态变化。现有方法要么忽略市场状态的差异,要么依赖人工标注,无法有效应对市场状态的快速变化,导致预测精度下降,尤其是在市场波动剧烈时。

核心思路:核心思路是构建一个能够自适应识别市场状态并动态调整预测策略的框架。通过自编码器学习正常市场状态的特征,利用重建误差检测异常状态。然后,根据市场状态选择不同的预测路径,并使用强化学习优化状态检测阈值和路径融合权重。

技术框架:整体架构包含三个主要模块:1) 自编码器:在正常市场条件下训练,用于检测异常市场状态。2) 双节点Transformer网络:包含两个Transformer网络,分别针对稳定和事件驱动的市场条件进行优化。3) Soft Actor-Critic (SAC) 强化学习控制器:根据预测性能反馈,自适应地调整状态检测阈值和路径融合权重。数据首先输入自编码器,根据重建误差判断市场状态,然后选择相应的Transformer网络进行预测,最后SAC控制器根据预测结果调整系统参数。

关键创新:最重要的创新点在于将自编码器、双节点Transformer和强化学习控制器集成到一个自适应的预测框架中。与现有方法相比,该框架能够自动识别市场状态,并动态调整预测策略,无需人工干预。此外,使用强化学习优化状态检测阈值和路径融合权重,进一步提高了预测精度。

关键设计:自编码器使用多层感知机结构,损失函数为均方误差。双节点Transformer网络使用标准的Transformer结构,但分别在不同的市场状态数据上进行训练。SAC控制器使用高斯策略和Q函数,奖励函数基于预测误差和方向准确率。具体参数设置(如学习率、网络层数、隐藏单元数等)通过实验进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架在S&P 500股票预测中取得了显著的性能提升。在没有强化学习控制器的情况下,一日预测的MAPE为0.68%,完整系统下达到0.59%,相比基线集成节点Transformer的0.80%有明显改善。方向准确率达到72%。在高波动时期,该系统也能保持稳健的性能,MAPE低于0.85%,而基线模型超过1.5%。

🎯 应用场景

该研究成果可应用于量化交易、风险管理和投资组合优化等领域。通过更准确的股票价格预测,可以帮助投资者制定更有效的交易策略,降低投资风险,并提高投资回报。此外,该框架的自适应性使其能够适应不断变化的市场环境,具有广泛的应用前景。

📄 摘要(原文)

Stock markets exhibit regime-dependent behavior where prediction models optimized for stable conditions often fail during volatile periods. Existing approaches typically treat all market states uniformly or require manual regime labeling, which is expensive and quickly becomes stale as market dynamics evolve. This paper introduces an adaptive prediction framework that adaptively identifies deviations from normal market conditions and routes data through specialized prediction pathways. The architecture consists of three components: (1) an autoencoder trained on normal market conditions that identifies anomalous regimes through reconstruction error, (2) dual node transformer networks specialized for stable and event-driven market conditions respectively, and (3) a Soft Actor-Critic reinforcement learning controller that adaptively tunes the regime detection threshold and pathway blending weights based on prediction performance feedback. The reinforcement learning component enables the system to learn adaptive regime boundaries, defining anomalies as market states where standard prediction approaches fail. Experiments on 20 S&P 500 stocks spanning 1982 to 2025 demonstrate that the proposed framework achieves 0.68% MAPE for one-day predictions without the reinforcement controller and 0.59% MAPE with the full adaptive system, compared to 0.80% for the baseline integrated node transformer. Directional accuracy reaches 72% with the complete framework. The system maintains robust performance during high-volatility periods, with MAPE below 0.85% when baseline models exceed 1.5%. Ablation studies confirm that each component contributes meaningfully: autoencoder routing accounts for 36% relative MAPE degradation upon removal, followed by the SAC controller at 15% and the dual-path architecture at 7%.