A Method on Searching Better Activation Functions
作者: Haoyuan Sun, Zihao Wu, Bo Xia, Pu Chang, Zibin Dong, Yifu Yuan, Yongzhe Chang, Xueqian Wang
分类: cs.LG, cs.AI
发布日期: 2024-05-19 (更新: 2024-05-22)
备注: 16 pages,3 figures
💡 一句话要点
提出基于熵优化的激活函数搜索方法EAFO,并设计CRReLU激活函数。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 激活函数优化 信息熵 ReLU 深度学习 神经网络 图像分类 语言模型微调
📋 核心要点
- 现有激活函数搜索主要依赖经验,缺乏理论指导,难以找到更有效的激活函数。
- 论文提出基于信息熵的激活函数优化方法EAFO,为静态激活函数设计提供新视角,并可动态优化。
- 实验表明,基于EAFO设计的CRReLU在图像分类和LLM微调任务上优于现有激活函数。
📝 摘要(中文)
激活函数的选择对人工神经网络的成功至关重要,它为网络引入非线性,使其能够对数据中的复杂关系进行建模。然而,过去对激活函数的搜索主要依赖于经验知识,缺乏理论指导,这阻碍了更有效激活函数的发现。本文针对此问题提供了一种解决方案。首先,从信息熵的角度理论上证明了具有边界条件的最差激活函数(WAFBC)的存在。此外,受到信息熵泛函的泰勒展开形式的启发,我们提出了基于熵的激活函数优化(EAFO)方法。EAFO方法为深度神经网络中静态激活函数的设计提供了一个新的视角,并具有在迭代训练期间动态优化激活函数的潜力。利用EAFO方法,我们从ReLU中推导出一个新的激活函数,称为校正正则化ReLU(CRReLU)。在CIFAR-10、CIFAR-100和ImageNet-1K数据集上,使用vision transformer及其变体的实验表明,CRReLU优于现有的ReLU校正方法。在大型语言模型(LLM)微调任务上的广泛实验研究表明,CRReLU比GELU表现出更优越的性能,表明其在实际应用中具有更广泛的潜力。
🔬 方法详解
问题定义:现有激活函数的设计主要依赖于经验和人工选择,缺乏理论指导,导致难以发现更有效的激活函数,阻碍了神经网络性能的进一步提升。如何系统性地搜索和设计更优的激活函数是一个关键问题。
核心思路:论文的核心思路是从信息熵的角度出发,寻找最优的激活函数。作者首先证明了最差激活函数(WAFBC)的存在,然后受到信息熵泛函泰勒展开的启发,提出了基于熵的激活函数优化(EAFO)方法。EAFO旨在通过优化激活函数的信息熵特性来提升神经网络的性能。
技术框架:EAFO方法主要包含以下几个阶段:1)理论分析:从信息熵的角度分析激活函数,证明WAFBC的存在。2)方法提出:基于信息熵泛函的泰勒展开,提出EAFO方法。3)激活函数设计:利用EAFO方法,从ReLU出发,推导出新的激活函数CRReLU。4)实验验证:在图像分类和LLM微调任务上验证CRReLU的性能。
关键创新:论文最重要的创新点在于提出了基于信息熵的激活函数优化方法EAFO。与以往依赖经验的激活函数设计方法不同,EAFO提供了一种理论指导,可以系统性地搜索和设计更优的激活函数。此外,CRReLU的提出也为ReLU的改进提供了一种新的思路。
关键设计:CRReLU的设计受到ReLU及其变体的启发,同时考虑了信息熵的优化。具体来说,CRReLU在ReLU的基础上引入了校正项和正则化项,以更好地控制激活函数的输出分布,从而提升神经网络的性能。具体的数学表达式在论文中给出,需要参考原文。
📊 实验亮点
实验结果表明,在CIFAR-10、CIFAR-100和ImageNet-1K数据集上,CRReLU在Vision Transformer及其变体上的表现优于现有的ReLU改进版本。此外,在大型语言模型微调任务中,CRReLU也展现出比GELU更优越的性能,证明了其在不同任务和模型上的泛化能力。
🎯 应用场景
该研究成果可广泛应用于各种深度学习任务中,尤其是在图像分类、自然语言处理等领域。通过使用EAFO方法或直接应用CRReLU激活函数,可以提升模型的性能和泛化能力。此外,EAFO方法也为动态激活函数的设计提供了新的思路,具有重要的研究价值。
📄 摘要(原文)
The success of artificial neural networks (ANNs) hinges greatly on the judicious selection of an activation function, introducing non-linearity into network and enabling them to model sophisticated relationships in data. However, the search of activation functions has largely relied on empirical knowledge in the past, lacking theoretical guidance, which has hindered the identification of more effective activation functions. In this work, we offer a proper solution to such issue. Firstly, we theoretically demonstrate the existence of the worst activation function with boundary conditions (WAFBC) from the perspective of information entropy. Furthermore, inspired by the Taylor expansion form of information entropy functional, we propose the Entropy-based Activation Function Optimization (EAFO) methodology. EAFO methodology presents a novel perspective for designing static activation functions in deep neural networks and the potential of dynamically optimizing activation during iterative training. Utilizing EAFO methodology, we derive a novel activation function from ReLU, known as Correction Regularized ReLU (CRReLU). Experiments conducted with vision transformer and its variants on CIFAR-10, CIFAR-100 and ImageNet-1K datasets demonstrate the superiority of CRReLU over existing corrections of ReLU. Extensive empirical studies on task of large language model (LLM) fine-tuning, CRReLU exhibits superior performance compared to GELU, suggesting its broader potential for practical applications.