Application of linear regression and quasi-Newton methods to the deep reinforcement learning in continuous action cases

📄 arXiv: 2503.14976v3 📥 PDF

作者: Hisato Komatsu

分类: cs.LG, cs.AI

发布日期: 2025-03-19 (更新: 2025-04-25)

备注: 23 pages, 8 figures


💡 一句话要点

提出DLS-DDPG方法,结合线性回归与拟牛顿法改进连续动作空间下的深度强化学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 连续动作空间 DDPG 线性回归 拟牛顿法 MuJoCo 策略优化

📋 核心要点

  1. LS-DQN等方法在离散动作空间表现良好,但在连续动作空间存在局限性,难以直接应用。
  2. DLS-DDPG结合线性回归与DDPG,利用拟牛顿法计算最优动作,并用于演员网络的训练。
  3. 在MuJoCo环境的实验表明,DLS-DDPG在部分任务中能够提升性能,但正则化项的调整仍具挑战。

📝 摘要(中文)

线性回归(LR)方法虽然表示能力不如深度学习,但其最优参数相对容易计算。为了改进深度强化学习,Levine等人提出了LS-DQN方法,将DQN与LR方法结合。然而,LS-DQN方法假设动作是离散的。本研究提出了双重最小二乘深度确定性策略梯度(DLS-DDPG)方法来解决这一限制。该方法将LR方法与深度确定性策略梯度(DDPG)技术相结合,DDPG是连续动作空间中具有代表性的深度强化学习算法之一。对于评论家网络的LR更新,DLS-DDPG使用类似于Fitted Q迭代的算法,LS-DQN也采用了该方法。此外,我们使用拟牛顿法计算最优动作,并将其用作智能体的动作和参与者网络LR更新的训练数据。在MuJoCo环境中进行的数值实验表明,所提出的方法至少在某些任务中提高了性能,但也存在难以使正则化项变小等困难。

🔬 方法详解

问题定义:现有方法如LS-DQN主要针对离散动作空间,在连续动作空间的强化学习任务中表现受限。DDPG等算法虽然适用于连续动作空间,但训练过程可能不稳定,且样本效率较低。因此,需要一种能够有效处理连续动作空间,同时提升训练稳定性和效率的算法。

核心思路:DLS-DDPG的核心思路是将线性回归的优势(易于优化)与DDPG的深度学习能力相结合,从而在连续动作空间中实现更有效的策略学习。通过线性回归更新评论家网络和演员网络,加速学习过程,并利用拟牛顿法寻找更优的动作。

技术框架:DLS-DDPG的整体框架基于DDPG,主要包含以下模块:1)评论家网络(Critic Network):使用线性回归进行更新,类似于Fitted Q迭代。2)演员网络(Actor Network):也使用线性回归进行更新,其训练数据来自拟牛顿法计算的最优动作。3)经验回放缓冲区(Replay Buffer):用于存储经验样本,提高样本利用率。4)目标网络(Target Networks):用于稳定训练过程。

关键创新:DLS-DDPG的关键创新在于:1)将线性回归应用于DDPG的评论家和演员网络的更新,加速学习过程。2)使用拟牛顿法计算最优动作,并将其作为演员网络训练的目标,提高了策略的优化效率。3)提出了Double Least Squares的结构,分别对Actor和Critic进行优化。

关键设计:1)评论家网络的线性回归更新采用类似于Fitted Q迭代的方法,最小化时序差分误差。2)演员网络的线性回归更新使用拟牛顿法计算的最优动作作为目标,损失函数为均方误差。3)正则化项的选择和调整对算法性能有重要影响,需要仔细调参。4)拟牛顿法的具体实现,例如BFGS算法,需要根据具体任务进行选择和调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DLS-DDPG在MuJoCo环境中的部分任务上取得了性能提升。虽然论文中没有给出具体的性能数据和提升幅度,但强调了该方法在某些任务中优于传统DDPG算法。同时,实验也揭示了正则化项调整的困难,这表明该方法仍有改进空间。

🎯 应用场景

DLS-DDPG方法可应用于机器人控制、自动驾驶、金融交易等需要连续动作控制的领域。例如,可以用于训练机器人完成复杂的运动任务,或者优化自动驾驶车辆的行驶策略。该方法通过结合线性回归的优势,有望提升深度强化学习在这些领域的应用效果。

📄 摘要(原文)

The linear regression (LR) method offers the advantage that optimal parameters can be calculated relatively easily, although its representation capability is limited than that of the deep learning technique. To improve deep reinforcement learning, the Least Squares Deep Q Network (LS-DQN) method was proposed by Levine et al., which combines Deep Q Network (DQN) with LR method. However, the LS-DQN method assumes that the actions are discrete. In this study, we propose the Double Least Squares Deep Deterministic Policy Gradient (DLS-DDPG) method to address this limitation. This method combines the LR method with the Deep Deterministic Policy Gradient (DDPG) technique, one of the representative deep reinforcement learning algorithms for continuous action cases. For the LR update of the critic network, DLS-DDPG uses an algorithm similar to the Fitted Q iteration, the method which LS-DQN adopted. In addition, we calculated the optimal action using the quasi-Newton method and used it as both the agent's action and the training data for the LR update of the actor network. Numerical experiments conducted in MuJoCo environments showed that the proposed method improved performance at least in some tasks, although there are difficulties such as the inability to make the regularization terms small.