A Deep Reinforcement Learning Approach to Automated Stock Trading, using xLSTM Networks

📄 arXiv: 2503.09655v1 📥 PDF

作者: Faezeh Sarlakifar, Mohammadreza Mohammadzadeh Asl, Sajjad Rezvani Khaledi, Armin Salimi-Badr

分类: cs.CE, cs.LG, q-fin.TR

发布日期: 2025-03-12

期刊: Journal of Innovations in Computer Science and Engineering (JICSE), vol. 2, 2025

DOI: 10.48308/jicse.2025.239844.1077


💡 一句话要点

提出基于xLSTM网络的深度强化学习股票交易方法,提升长期依赖建模能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 xLSTM网络 股票交易 自动化交易 时间序列预测

📋 核心要点

  1. 传统LSTM在股票交易等动态环境中存在梯度消失和长期依赖捕捉不足的局限性。
  2. 提出将xLSTM网络融入深度强化学习框架,增强模型对长期时间序列数据的处理能力。
  3. 实验结果表明,基于xLSTM的模型在多个关键交易指标上优于LSTM模型,验证了其有效性。

📝 摘要(中文)

本研究探索了新型扩展长短期记忆(xLSTM)网络与深度强化学习(DRL)相结合的自动化股票交易方法,旨在解决传统LSTM网络在动态和高风险环境中梯度消失和难以捕捉长期依赖的问题。该方法在Actor和Critic组件中均采用xLSTM网络,有效处理时间序列数据和动态市场环境。利用近端策略优化(PPO)算法平衡探索与利用,优化交易策略。实验采用主要科技公司的金融数据,结果表明,基于xLSTM的模型在累积回报、平均每笔交易盈利能力、最大盈利率、最大回撤和夏普比率等关键交易评估指标上优于基于LSTM的方法。这些发现表明xLSTM在增强基于DRL的股票交易系统方面的潜力。

🔬 方法详解

问题定义:论文旨在解决传统LSTM网络在自动化股票交易中,由于梯度消失和难以捕捉长期依赖关系而导致的性能瓶颈。现有方法难以有效处理股票市场中的长期时间序列数据,影响交易策略的优化。

核心思路:论文的核心思路是将新型的xLSTM网络引入到深度强化学习框架中,利用xLSTM在处理长期依赖关系方面的优势,提升模型对股票市场动态变化的适应能力。通过增强模型对历史数据的记忆能力,从而做出更明智的交易决策。

技术框架:整体框架采用Actor-Critic架构,其中Actor网络负责生成交易策略,Critic网络负责评估策略的价值。Actor和Critic网络均使用xLSTM网络作为核心组件。使用近端策略优化(PPO)算法来训练模型,PPO算法能够平衡探索和利用,避免策略更新幅度过大,保证训练的稳定性。整个流程包括数据预处理、模型训练和策略评估三个阶段。

关键创新:最重要的技术创新点在于将xLSTM网络引入到深度强化学习的股票交易系统中。xLSTM网络相较于传统LSTM网络,在记忆单元的设计上有所改进,能够更好地捕捉长期依赖关系,从而提升模型在复杂金融环境中的表现。这是首次将xLSTM应用于股票交易领域。

关键设计:论文中,xLSTM网络的具体结构和参数设置未知,但可以推测其关键设计在于xLSTM的门控机制和记忆单元的更新方式,这使得它能够更好地保留和利用长期信息。PPO算法的学习率、折扣因子等超参数的选择也会影响模型的性能。损失函数的设计需要综合考虑交易回报、风险和交易成本等因素。

📊 实验亮点

实验结果表明,基于xLSTM的深度强化学习模型在累积回报、平均每笔交易盈利能力、最大盈利率、最大回撤和夏普比率等关键交易评估指标上均优于基于LSTM的模型。具体提升幅度未知,但整体表现的提升证明了xLSTM在处理金融时间序列数据方面的优势。

🎯 应用场景

该研究成果可应用于自动化股票交易系统、量化投资策略开发、金融风险管理等领域。通过提升交易策略的智能化水平,有望提高投资回报率,降低交易风险。未来可扩展到其他金融市场,如外汇、期货等,具有广阔的应用前景。

📄 摘要(原文)

Traditional Long Short-Term Memory (LSTM) networks are effective for handling sequential data but have limitations such as gradient vanishing and difficulty in capturing long-term dependencies, which can impact their performance in dynamic and risky environments like stock trading. To address these limitations, this study explores the usage of the newly introduced Extended Long Short Term Memory (xLSTM) network in combination with a deep reinforcement learning (DRL) approach for automated stock trading. Our proposed method utilizes xLSTM networks in both actor and critic components, enabling effective handling of time series data and dynamic market environments. Proximal Policy Optimization (PPO), with its ability to balance exploration and exploitation, is employed to optimize the trading strategy. Experiments were conducted using financial data from major tech companies over a comprehensive timeline, demonstrating that the xLSTM-based model outperforms LSTM-based methods in key trading evaluation metrics, including cumulative return, average profitability per trade, maximum earning rate, maximum pullback, and Sharpe ratio. These findings mark the potential of xLSTM for enhancing DRL-based stock trading systems.