Mitigating Bias in Low-SNR Financial Reinforcement Learning via Quantum Representations
作者: Zeyu Liu, Xuanzhi Feng, Sing Kwong Lai, Yuanchen Gao, Xiaoyi Pang, Hualei Zhang, Jingcai Guo, Jie Zhang, Song Guo
分类: cs.LG, cs.AI
发布日期: 2026-06-09
备注: Preprint. Code available at https://github.com/ZeyuLIU-UST/FPQC-SAC-main
🔗 代码/项目: GITHUB
💡 一句话要点
提出FPQC-SAC以解决低信噪比金融强化学习中的偏差问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 金融强化学习 量子计算 低信噪比 SAC 投资组合管理 Q值估计 噪声控制
📋 核心要点
- 金融市场的低信噪比特性使得现有的强化学习方法(如SAC)在估计Q值时容易受到噪声影响,导致不稳定性。
- FPQC-SAC通过在演员和评论员网络前引入参数化量子电路,限制特征传播,从而有效应对金融市场的噪声问题。
- 实验结果显示,FPQC-SAC在真实投资组合管理任务中相较于传统SAC显著提高了66.89%的累计收益,并超越了最佳基线约27%。
📝 摘要(中文)
金融市场是一个典型的低信噪比环境,这常常使得像Soft Actor-Critic(SAC)这样的离策略最大熵方法不稳定。具体而言,噪声状态表示可能导致不可靠的Q值估计,而引导过程会放大这些错误,形成我们称之为“金融熵陷阱”的失败模式。本文提出FPQC-SAC,这是一种高效且可插拔的SAC变体,在演员和评论员网络之前放置一个紧凑且有界的参数化量子电路(PQC),以在表示层面限制特征传播,而不是在引导后过滤原始输入或正则化Q值。FPQC-SAC显著减少了极端市场波动对贝尔曼目标估计的影响,同时可训练的量子纠缠保持了灵活的跨资产交互。实证评估表明,FPQC-SAC在真实的投资组合管理任务中显著增强了样本外稳定性和累计收益,相较于标准的无约束SAC实现了66.89%的相对收益提升,并且比最佳的连续控制深度强化学习基线提高了约27%。
🔬 方法详解
问题定义:本文旨在解决金融市场中低信噪比环境下强化学习方法的不稳定性,尤其是SAC在噪声状态表示下的Q值估计不可靠问题。现有方法在引导过程中容易放大这些错误,形成“金融熵陷阱”。
核心思路:FPQC-SAC的核心思路是通过引入参数化量子电路(PQC)来限制特征传播,从而在表示层面上控制噪声影响,而不是在后期处理Q值或输入数据。这种设计旨在减少极端市场波动对贝尔曼目标估计的影响,同时保持灵活的跨资产交互。
技术框架:FPQC-SAC的整体架构包括演员网络、评论员网络和前置的参数化量子电路。PQC负责在特征层面进行噪声控制,确保输入数据的有效性,从而提高Q值估计的准确性。
关键创新:FPQC-SAC的主要创新在于将量子计算的特性引入到强化学习中,通过量子纠缠实现特征的有效传播和交互,这与传统方法在处理噪声时的线性过滤或正则化方式有本质区别。
关键设计:在FPQC-SAC中,PQC的参数设置和网络结构经过精心设计,以确保其在不同市场条件下的适应性和稳定性。损失函数的选择也考虑了量子特性,以优化Q值的估计过程。具体的参数设置和网络结构细节在实验部分进行了详细描述。
🖼️ 关键图片
📊 实验亮点
FPQC-SAC在真实投资组合管理任务中的实验结果显示,相较于标准的无约束SAC,累计收益提升了66.89%。此外,该方法还超越了最佳的连续控制深度强化学习基线,提升幅度约为27%,显示出其在金融领域的显著优势。
🎯 应用场景
该研究的潜在应用领域包括金融投资、资产管理和风险控制等。FPQC-SAC能够在高噪声环境中提供更稳定的决策支持,帮助投资者在复杂的市场条件下实现更高的收益。未来,该方法可能会扩展到其他需要处理不确定性和噪声的领域,如智能交通和机器人控制等。
📄 摘要(原文)
The financial market is a typical low signal-to-noise ratio (SNR) setting, which often destabilizes off-policy maximum-entropy methods like Soft Actor-Critic (SAC). Specifically, noisy state representations may produce unreliable Q-value estimates, and bootstrapping amplifies these errors, forming a failure mode we call the "Financial Entropy Trap". In this paper, we propose FPQC-SAC, an efficient and plug-and-play SAC variant that places a compact and bounded Parameterized Quantum Circuit (PQC) before the actor and critic networks to constrain feature propagation at the representation level, rather than filtering raw inputs or regularizing Q-values after bootstrapping. Notably, FPQC-SAC reduces the impact of extreme market fluctuations on Bellman target estimation, while trainable quantum entanglement preserves flexible cross-asset interactions. Empirical evaluations on real-world portfolio management tasks demonstrate that FPQC-SAC substantially enhances out-of-sample stability and cumulative returns by achieving a 66.89% relative gain in cumulative return over standard unconstrained SAC and outperforms the best continuous-control deep reinforcement learning baseline by approximately 27%. Open-source code is available at https://github.com/ZeyuLIU-UST/FPQC-SAC-main.