PowLU: An Activation Function for Stable Pre-Training of LLMs
作者: Peijie Jiang, Yuqi Feng, Cunyin Peng, Qian Zhao, Jia Liu, KunLong Chen, Zhiqiang Zhang, Jun Zhou
分类: cs.CL, cs.LG
发布日期: 2026-05-25
备注: 17 pages, 7 figures, techreport
💡 一句话要点
提出PowLU激活函数,解决LLM预训练中的数值稳定性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 激活函数 数值稳定性 预训练 低精度训练
📋 核心要点
- SwiGLU激活函数在LLM中被广泛使用,但其近似二次放大的特性导致训练过程中出现数值不稳定性,尤其是在低精度训练中。
- PowLU通过使用有理幂函数来实现自适应非线性,从而在spike区域实现稳定训练,并提高模型的表示能力。
- 实验结果表明,PowLU在不同模型尺寸上性能一致,并且在Ling架构上取得了与SwiGLU和SwiGLU-Clip具有竞争力的结果,提高了LLM训练的可扩展性。
📝 摘要(中文)
当前的大型语言模型(LLMs)广泛采用SwiGLU激活函数来调节信息流并引入非线性。对于较大的正输入,SwiGLU近似于二次函数$x^2$,提供强大的非线性和表达能力。然而,随着输入或模型规模的增加,这种特性也会导致数值不稳定,尤其是在低精度LLM训练中。主要原因是其近似二次放大,扩大了输出范围并加剧了异常值。为了解决这个问题,我们提出了一种稳定的激活函数,即Power Linear Unit(PowLU),用于大规模LLM预训练。具体来说,PowLU采用有理幂函数来实现自适应非线性,从而提高表示能力并实现spike区域的稳定训练。此外,我们为PowLU的几个关键属性提供了理论依据。缩放定律实验证实了性能在不同模型尺寸上的一致性,并且使用Ling架构(总参数为7.9B和124B)的进一步实验结果表明,在LLM的大规模训练中,PowLU相对于SwiGLU和SwiGLU-Clip取得了具有竞争力的结果。此外,实验结果还表明PowLU有效地提高了LLM大规模训练的可扩展性。
🔬 方法详解
问题定义:现有的大型语言模型(LLMs)依赖于SwiGLU等激活函数引入非线性,但SwiGLU在高输入值时近似于二次函数,导致输出范围过大,容易出现数值溢出或梯度消失等问题,尤其是在低精度训练和大规模模型中,这种数值不稳定性会严重影响模型的训练效果和收敛速度。现有方法,如梯度裁剪,虽然可以缓解这个问题,但会影响模型的表达能力。
核心思路:PowLU的核心思路是使用一个有理幂函数来替代SwiGLU中的二次放大特性,从而实现自适应的非线性变换。通过调整幂函数的指数,可以控制输出的增长速度,避免数值过大,同时保持模型的表达能力。这种方法旨在在非线性和数值稳定性之间找到一个平衡点。
技术框架:PowLU激活函数直接替换了LLM中原有的SwiGLU激活函数。整体训练流程与使用SwiGLU的LLM训练流程相同,无需额外的模块或阶段。关键在于PowLU激活函数本身的设计,它是一个可直接嵌入到现有LLM架构中的组件。
关键创新:PowLU的关键创新在于使用有理幂函数来实现自适应非线性。与SwiGLU的近似二次放大不同,PowLU可以更精细地控制输出的增长速度,从而避免数值不稳定。此外,PowLU的设计允许通过调整幂函数的指数来适应不同的模型规模和训练精度。
关键设计:PowLU激活函数的具体形式为:PowLU(x) = x * sigmoid(x) ^ alpha,其中x是输入,sigmoid(x)是sigmoid函数,alpha是一个可学习的参数或超参数,用于控制幂函数的指数。alpha的取值范围通常在0到1之间,当alpha接近1时,PowLU的行为类似于SwiGLU,当alpha接近0时,PowLU的行为接近线性函数。通过调整alpha,可以控制PowLU的非线性程度和输出范围。
🖼️ 关键图片
📊 实验亮点
论文在Ling架构(7.9B和124B参数)上进行了实验,结果表明PowLU在LLM的大规模训练中,相对于SwiGLU和SwiGLU-Clip取得了具有竞争力的结果。此外,缩放定律实验证实了PowLU在不同模型尺寸上性能的一致性,表明PowLU有效地提高了LLM大规模训练的可扩展性。具体性能提升数据未知。
🎯 应用场景
PowLU激活函数可广泛应用于各种大型语言模型的预训练和微调任务中,尤其是在低精度训练和大规模模型训练中,可以有效提高训练的稳定性和可扩展性。该方法还有潜力应用于其他深度学习模型,以解决类似的数值稳定性问题,例如在计算机视觉和语音识别等领域。
📄 摘要(原文)
In contemporary large language models (LLMs), the swish-gated linear unit (SwiGLU) activation function is widely adopted to regulate the information flow and introduce non-linearity. For large positive inputs, SwiGLU approximates the quadratic function $x^2$, providing strong nonlinearity and expressive capacity. However, this property also causes numerical instability as the input or model scale increases, particularly in low-precision LLM training. The main reason is its approximate quadratic amplification, which enlarges the output range and exacerbates outliers. To address this issue, we propose a stable activation function, Power Linear Unit (PowLU), for large-scale LLM pre-training. Specifically, PowLU employs a rational power function to achieve adaptive nonlinearity, thereby improving representation ability and enabling stable training in spike regions. Moreover, we provide theoretical justification for several key properties of PowLU. Scaling law experiments confirm that the performance is consistent across model sizes, and further experimental results with the Ling architecture (7.9B and 124B total parameters) demonstrate that PowLU achieves competitive results against SwiGLU and SwiGLU-Clip in large-scale training of LLMs. In addition, the experimental results also show that PowLU effectively improves the scalability of the large-scale training of LLMs.