Hadamard Representations: Augmenting Hyperbolic Tangents in RL
作者: Jacob E. Kooi, Mark Hoogendoorn, Vincent François-Lavet
分类: cs.LG
发布日期: 2024-06-13 (更新: 2025-05-19)
备注: 30 pages, 25 figures
💡 一句话要点
提出Hadamard表示增强RL中双曲正切激活,缓解死亡神经元问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 激活函数 Hadamard表示 死亡神经元 深度神经网络
📋 核心要点
- 强化学习中,连续可微激活函数(如tanh)易出现死亡神经元问题,导致性能不如分段线性函数。
- 论文提出Hadamard表示,通过增强连续可微激活函数,缓解死亡神经元问题,提升表征能力。
- 实验表明,在Atari游戏中,使用Hadamard表示的DQN、PPO和PQN学习速度更快,死亡神经元更少,有效秩更高。
📝 摘要(中文)
激活函数是深度神经网络的关键组成部分之一。最常用的激活函数可以分为连续可微函数(如tanh)和分段线性函数(如ReLU)两类,它们在下游性能和通过学习获得的表征能力方面各有优缺点。在强化学习中,连续可微激活函数的性能通常不如分段线性函数。我们表明,强化学习中的死亡神经元问题并非ReLU独有,实际上在连续可微激活函数(如tanh)中会导致更多问题。为了缓解这些激活函数的死亡神经元问题,我们提出了一种Hadamard表示,以释放连续可微激活函数的优势。通过在Atari领域使用DQN、PPO和PQN,我们展示了更快的学习速度、死亡神经元的减少以及有效秩的增加。
🔬 方法详解
问题定义:论文旨在解决强化学习中使用连续可微激活函数(如tanh)时出现的死亡神经元问题。现有方法通常采用ReLU等分段线性激活函数,但这些函数可能存在梯度消失等问题。tanh等连续可微激活函数虽然具有良好的梯度特性,但在强化学习中更容易出现神经元输出接近饱和,导致梯度消失,从而影响学习效果。
核心思路:论文的核心思路是利用Hadamard矩阵来增强tanh激活函数的表征能力,从而缓解死亡神经元问题。Hadamard矩阵是一种正交矩阵,其元素为+1或-1。通过将tanh激活函数的输出与Hadamard矩阵进行运算,可以有效地扩展输出空间,增加神经元的多样性,从而避免神经元过早饱和。
技术框架:该方法主要是在现有的强化学习算法(如DQN、PPO、PQN)中,将tanh激活函数替换为Hadamard表示的tanh激活函数。具体来说,对于神经网络的每一层,首先使用tanh激活函数得到输出,然后将该输出与一个预定义的Hadamard矩阵进行矩阵乘法,得到最终的激活值。这个过程可以看作是对tanh输出的一种线性变换,从而增强其表征能力。
关键创新:该论文的关键创新在于将Hadamard矩阵引入到强化学习的激活函数设计中。与传统的激活函数相比,Hadamard表示能够有效地扩展输出空间,增加神经元的多样性,从而缓解死亡神经元问题。此外,该方法不需要额外的训练参数,易于集成到现有的强化学习算法中。
关键设计:Hadamard矩阵的大小是一个关键参数,需要根据神经网络的层数和神经元数量进行调整。论文中使用了不同的Hadamard矩阵大小,并进行了实验比较。此外,论文还研究了不同的Hadamard矩阵生成方法,例如Sylvester构造法。损失函数和网络结构与原始的DQN、PPO、PQN算法保持一致,没有进行修改。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在Atari游戏环境中,使用Hadamard表示的DQN、PPO和PQN算法在学习速度、死亡神经元数量和有效秩方面均优于原始算法。例如,在某些游戏中,使用Hadamard表示的DQN算法可以更快地达到相同的性能水平,并且死亡神经元的数量显著减少。此外,有效秩的增加表明Hadamard表示能够提高神经网络的表征能力。
🎯 应用场景
该研究成果可应用于各种需要使用强化学习的场景,尤其是在状态空间或动作空间维度较高的情况下。例如,机器人控制、游戏AI、自动驾驶等领域。通过使用Hadamard表示增强的激活函数,可以提高强化学习算法的训练效率和性能,从而更好地解决实际问题。未来,该方法还可以扩展到其他类型的神经网络和激活函数中。
📄 摘要(原文)
Activation functions are one of the key components of a deep neural network. The most commonly used activation functions can be classed into the category of continuously differentiable (e.g. tanh) and piece-wise linear functions (e.g. ReLU), both having their own strengths and drawbacks with respect to downstream performance and representation capacity through learning. In reinforcement learning, the performance of continuously differentiable activations often falls short as compared to piece-wise linear functions. We show that the dying neuron problem in RL is not exclusive to ReLUs and actually leads to additional problems in the case of continuously differentiable activations such as tanh. To alleviate the dying neuron problem with these activations, we propose a Hadamard representation that unlocks the advantages of continuously differentiable activations. Using DQN, PPO and PQN in the Atari domain, we show faster learning, a reduction in dead neurons and increased effective rank.