One-for-All: A Lightweight Stabilized and Parameter-Efficient Pre-trained LLM for Time Series Forecasting

📄 arXiv: 2603.29756v1 📥 PDF

作者: Prasanjit Dey, Soumyabrata Dev, Bianca Schoen-Phelan

分类: cs.LG

发布日期: 2026-03-31

备注: This manuscript is currently under review at IEEE Transactions on Knowledge and Data Engineering (TKDE)


💡 一句话要点

提出One-for-All框架,通过高斯秩稳定低秩适配器实现时间序列预测中预训练LLM的轻量化和参数高效微调。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列预测 大型语言模型 参数高效微调 低秩适配器 边缘计算

📋 核心要点

  1. 现有方法将大型语言模型应用于时间序列分析时,面临计算和内存需求过高的挑战,限制了其在资源受限环境中的部署。
  2. One-for-All框架通过引入高斯秩稳定低秩适配器(rsLoRA),在冻结LLM的同时实现参数高效微调,降低计算和存储成本。
  3. 实验结果表明,One-for-All在多个时间序列任务上实现了最先进的效率-精度权衡,且参数效率显著优于现有方法。

📝 摘要(中文)

本文旨在解决将预训练大型语言模型(LLM)应用于多元时间序列分析时,计算和内存需求过高的问题。我们提出了One-for-All框架,引入了高斯秩稳定低秩适配器(rsLoRA),以实现冻结LLM的参数高效微调。rsLoRA受到LoRA的启发,但引入了数学上可靠的秩稳定机制,可在低秩下实现可证明的梯度稳定性,这是现有PEFT方法所不具备的。该框架将可训练的秩分解矩阵(秩16)注入到位置嵌入和输出层中,同时保持自注意力权重固定。这种设计将可训练参数减少了6.8倍(与TimesNet相比)、21倍(与GPT4TS相比)和11.8倍(与TIME-LLM相比),同时实现了168-1,776倍更小的内存占用(2.2MiB vs. SOTA模型的340MiB-4.18GiB)。在六个时间序列任务上的严格评估表明,One-for-All实现了最先进的效率-精度权衡:参数效率比TimesNet高5.5倍(MSE=5.50),比GPT4TS高21倍,同时匹配它们的预测精度(MSE=0.33)。该框架的稳定性通过在不同的预测范围(96-720步)和数据集(ETT、Weather、M3、M4)上的一致性能得到验证,参数比传统transformer少98.3%。这些进步使得在医疗保健、金融和环境监测等边缘设备上部署成为可能,而不会影响性能。

🔬 方法详解

问题定义:论文旨在解决将预训练LLM应用于多元时间序列预测时,模型参数量大、计算资源消耗高的问题。现有方法难以在边缘设备等资源受限的环境中部署,且微调成本高昂。

核心思路:核心思路是利用参数高效微调(PEFT)技术,特别是低秩适配器(LoRA)的思想,只训练少量参数,同时保持预训练LLM的大部分权重冻结。通过引入高斯秩稳定机制,提升低秩适配器的训练稳定性,从而在更低的秩下实现更好的性能。

技术框架:One-for-All框架主要包含以下几个部分:1) 使用预训练的LLM作为 backbone;2) 在LLM的位置嵌入和输出层注入可训练的低秩适配器(rsLoRA);3) 冻结LLM的大部分参数,只训练rsLoRA的参数;4) 使用时间序列数据对模型进行微调,优化预测性能。

关键创新:关键创新在于提出了高斯秩稳定低秩适配器(rsLoRA)。与传统的LoRA相比,rsLoRA引入了数学上可证明的秩稳定机制,能够在低秩的情况下保证梯度稳定性,从而提升模型的训练效果和泛化能力。这是现有PEFT方法所不具备的。

关键设计:rsLoRA的关键设计包括:1) 使用高斯分布初始化低秩矩阵,以保证秩的稳定性;2) 将rsLoRA注入到位置嵌入和输出层,这两个模块对时间序列预测至关重要;3) 使用秩为16的低秩矩阵,在参数效率和性能之间取得平衡;4) 采用均方误差(MSE)作为损失函数,优化预测精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

One-for-All框架在六个时间序列任务上取得了显著的性能提升。与TimesNet相比,参数效率提高了5.5倍(MSE=5.50),与GPT4TS相比,参数效率提高了21倍,同时保持了与它们相当的预测精度(MSE=0.33)。此外,该框架的参数量比传统Transformer减少了98.3%,内存占用极小,仅为2.2MiB,远小于其他SOTA模型(340MiB-4.18GiB)。

🎯 应用场景

该研究成果可广泛应用于需要时间序列预测的领域,尤其是在资源受限的边缘设备上。例如,在医疗保健领域,可以用于患者生理数据的实时监测和疾病预警;在金融领域,可以用于股票价格预测和风险管理;在环境监测领域,可以用于空气质量预测和灾害预警。该框架的轻量化和参数高效性使其能够部署在各种嵌入式设备上,实现智能化应用。

📄 摘要(原文)

We address the challenge of adapting pre-trained Large Language Models (LLMs) for multivariate time-series analysis, where their deployment is often hindered by prohibitive computational and memory demands. Our solution, One-for-All, introduces Gaussian Rank-Stabilized Low-Rank Adapters (rsLoRA) to enable parameter-efficient fine-tuning of frozen LLMs. While inspired by LoRA, rsLoRA introduces a mathematically grounded rank-stabilization mechanism that enables provable gradient stability at low ranks a novel contribution absent in prior PEFT methods. Our framework injects trainable rank decomposition matrices (rank 16) into positional embeddings and output layers, while keeping self-attention weights fixed. This design reduces trainable parameters by 6.8$\times$ (vs. TimesNet), 21$\times$ (vs. GPT4TS), and 11.8$\times$ (vs. TIME-LLM), while achieving a 168-1,776$\times$ smaller memory footprint (2.2MiB vs. 340MiB-4.18GiB in SOTA models). Rigorous evaluation across six time-series tasks demonstrates that One-for-All achieves state-of-the-art efficiency-accuracy trade-offs: 5.5$\times$ higher parameter efficiency (MSE=5.50) than TimesNet and 21$\times$ better than GPT4TS, while matching their forecasting accuracy (MSE=0.33). The framework's stability is validated through consistent performance across diverse horizons (96-720 steps) and datasets (ETT, Weather, M3, M4), with 98.3% fewer parameters than conventional transformers. These advances enable deployment on edge devices for healthcare, finance, and environmental monitoring without compromising performance.