Mitigating Bias in Low-SNR Financial Reinforcement Learning via Quantum Representations

作者: Zeyu Liu, Xuanzhi Feng, Sing Kwong Lai, Yuanchen Gao, Xiaoyi Pang, Hualei Zhang, Jingcai Guo, Jie Zhang, Song Guo

分类: cs.LG, cs.AI

发布日期: 2026-06-09

备注: Preprint. Code available at https://github.com/ZeyuLIU-UST/FPQC-SAC-main

🔗 代码/项目: GITHUB

💡 一句话要点

提出FPQC-SAC以解决低信噪比金融强化学习中的偏差问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 金融强化学习 量子计算 低信噪比 SAC 投资组合管理 Q值估计 噪声控制

📋 核心要点

金融市场的低信噪比特性使得现有的强化学习方法（如SAC）在估计Q值时容易受到噪声影响，导致不稳定性。
FPQC-SAC通过在演员和评论员网络前引入参数化量子电路，限制特征传播，从而有效应对金融市场的噪声问题。
实验结果显示，FPQC-SAC在真实投资组合管理任务中相较于传统SAC显著提高了66.89%的累计收益，并超越了最佳基线约27%。

📝 摘要（中文）

金融市场是一个典型的低信噪比环境，这常常使得像Soft Actor-Critic（SAC）这样的离策略最大熵方法不稳定。具体而言，噪声状态表示可能导致不可靠的Q值估计，而引导过程会放大这些错误，形成我们称之为“金融熵陷阱”的失败模式。本文提出FPQC-SAC，这是一种高效且可插拔的SAC变体，在演员和评论员网络之前放置一个紧凑且有界的参数化量子电路（PQC），以在表示层面限制特征传播，而不是在引导后过滤原始输入或正则化Q值。FPQC-SAC显著减少了极端市场波动对贝尔曼目标估计的影响，同时可训练的量子纠缠保持了灵活的跨资产交互。实证评估表明，FPQC-SAC在真实的投资组合管理任务中显著增强了样本外稳定性和累计收益，相较于标准的无约束SAC实现了66.89%的相对收益提升，并且比最佳的连续控制深度强化学习基线提高了约27%。

🔬 方法详解

问题定义：本文旨在解决金融市场中低信噪比环境下强化学习方法的不稳定性，尤其是SAC在噪声状态表示下的Q值估计不可靠问题。现有方法在引导过程中容易放大这些错误，形成“金融熵陷阱”。

核心思路：FPQC-SAC的核心思路是通过引入参数化量子电路（PQC）来限制特征传播，从而在表示层面上控制噪声影响，而不是在后期处理Q值或输入数据。这种设计旨在减少极端市场波动对贝尔曼目标估计的影响，同时保持灵活的跨资产交互。

技术框架：FPQC-SAC的整体架构包括演员网络、评论员网络和前置的参数化量子电路。PQC负责在特征层面进行噪声控制，确保输入数据的有效性，从而提高Q值估计的准确性。

关键创新：FPQC-SAC的主要创新在于将量子计算的特性引入到强化学习中，通过量子纠缠实现特征的有效传播和交互，这与传统方法在处理噪声时的线性过滤或正则化方式有本质区别。

关键设计：在FPQC-SAC中，PQC的参数设置和网络结构经过精心设计，以确保其在不同市场条件下的适应性和稳定性。损失函数的选择也考虑了量子特性，以优化Q值的估计过程。具体的参数设置和网络结构细节在实验部分进行了详细描述。

🖼️ 关键图片

📊 实验亮点

FPQC-SAC在真实投资组合管理任务中的实验结果显示，相较于标准的无约束SAC，累计收益提升了66.89%。此外，该方法还超越了最佳的连续控制深度强化学习基线，提升幅度约为27%，显示出其在金融领域的显著优势。

🎯 应用场景

该研究的潜在应用领域包括金融投资、资产管理和风险控制等。FPQC-SAC能够在高噪声环境中提供更稳定的决策支持，帮助投资者在复杂的市场条件下实现更高的收益。未来，该方法可能会扩展到其他需要处理不确定性和噪声的领域，如智能交通和机器人控制等。

📄 摘要（原文）

The financial market is a typical low signal-to-noise ratio (SNR) setting, which often destabilizes off-policy maximum-entropy methods like Soft Actor-Critic (SAC). Specifically, noisy state representations may produce unreliable Q-value estimates, and bootstrapping amplifies these errors, forming a failure mode we call the "Financial Entropy Trap". In this paper, we propose FPQC-SAC, an efficient and plug-and-play SAC variant that places a compact and bounded Parameterized Quantum Circuit (PQC) before the actor and critic networks to constrain feature propagation at the representation level, rather than filtering raw inputs or regularizing Q-values after bootstrapping. Notably, FPQC-SAC reduces the impact of extreme market fluctuations on Bellman target estimation, while trainable quantum entanglement preserves flexible cross-asset interactions. Empirical evaluations on real-world portfolio management tasks demonstrate that FPQC-SAC substantially enhances out-of-sample stability and cumulative returns by achieving a 66.89% relative gain in cumulative return over standard unconstrained SAC and outperforms the best continuous-control deep reinforcement learning baseline by approximately 27%. Open-source code is available at https://github.com/ZeyuLIU-UST/FPQC-SAC-main.

Mitigating Bias in Low-SNR Financial Reinforcement Learning via Quantum Representations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理