One-for-All: A Lightweight Stabilized and Parameter-Efficient Pre-trained LLM for Time Series Forecasting

作者: Prasanjit Dey, Soumyabrata Dev, Bianca Schoen-Phelan

分类: cs.LG

发布日期: 2026-03-31

备注: This manuscript is currently under review at IEEE Transactions on Knowledge and Data Engineering (TKDE)

💡 一句话要点

提出One-for-All框架，通过高斯秩稳定低秩适配器实现时间序列预测中预训练LLM的轻量化和参数高效微调。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 时间序列预测 大型语言模型 参数高效微调 低秩适配器 边缘计算

📋 核心要点

现有方法将大型语言模型应用于时间序列分析时，面临计算和内存需求过高的挑战，限制了其在资源受限环境中的部署。
One-for-All框架通过引入高斯秩稳定低秩适配器（rsLoRA），在冻结LLM的同时实现参数高效微调，降低计算和存储成本。
实验结果表明，One-for-All在多个时间序列任务上实现了最先进的效率-精度权衡，且参数效率显著优于现有方法。

📝 摘要（中文）

本文旨在解决将预训练大型语言模型（LLM）应用于多元时间序列分析时，计算和内存需求过高的问题。我们提出了One-for-All框架，引入了高斯秩稳定低秩适配器（rsLoRA），以实现冻结LLM的参数高效微调。rsLoRA受到LoRA的启发，但引入了数学上可靠的秩稳定机制，可在低秩下实现可证明的梯度稳定性，这是现有PEFT方法所不具备的。该框架将可训练的秩分解矩阵（秩16）注入到位置嵌入和输出层中，同时保持自注意力权重固定。这种设计将可训练参数减少了6.8倍（与TimesNet相比）、21倍（与GPT4TS相比）和11.8倍（与TIME-LLM相比），同时实现了168-1,776倍更小的内存占用（2.2MiB vs. SOTA模型的340MiB-4.18GiB）。在六个时间序列任务上的严格评估表明，One-for-All实现了最先进的效率-精度权衡：参数效率比TimesNet高5.5倍（MSE=5.50），比GPT4TS高21倍，同时匹配它们的预测精度（MSE=0.33）。该框架的稳定性通过在不同的预测范围（96-720步）和数据集（ETT、Weather、M3、M4）上的一致性能得到验证，参数比传统transformer少98.3%。这些进步使得在医疗保健、金融和环境监测等边缘设备上部署成为可能，而不会影响性能。

🔬 方法详解

问题定义：论文旨在解决将预训练LLM应用于多元时间序列预测时，模型参数量大、计算资源消耗高的问题。现有方法难以在边缘设备等资源受限的环境中部署，且微调成本高昂。

核心思路：核心思路是利用参数高效微调（PEFT）技术，特别是低秩适配器（LoRA）的思想，只训练少量参数，同时保持预训练LLM的大部分权重冻结。通过引入高斯秩稳定机制，提升低秩适配器的训练稳定性，从而在更低的秩下实现更好的性能。

技术框架：One-for-All框架主要包含以下几个部分：1) 使用预训练的LLM作为 backbone；2) 在LLM的位置嵌入和输出层注入可训练的低秩适配器（rsLoRA）；3) 冻结LLM的大部分参数，只训练rsLoRA的参数；4) 使用时间序列数据对模型进行微调，优化预测性能。

关键创新：关键创新在于提出了高斯秩稳定低秩适配器（rsLoRA）。与传统的LoRA相比，rsLoRA引入了数学上可证明的秩稳定机制，能够在低秩的情况下保证梯度稳定性，从而提升模型的训练效果和泛化能力。这是现有PEFT方法所不具备的。

关键设计：rsLoRA的关键设计包括：1) 使用高斯分布初始化低秩矩阵，以保证秩的稳定性；2) 将rsLoRA注入到位置嵌入和输出层，这两个模块对时间序列预测至关重要；3) 使用秩为16的低秩矩阵，在参数效率和性能之间取得平衡；4) 采用均方误差（MSE）作为损失函数，优化预测精度。

🖼️ 关键图片

📊 实验亮点

One-for-All框架在六个时间序列任务上取得了显著的性能提升。与TimesNet相比，参数效率提高了5.5倍（MSE=5.50），与GPT4TS相比，参数效率提高了21倍，同时保持了与它们相当的预测精度（MSE=0.33）。此外，该框架的参数量比传统Transformer减少了98.3%，内存占用极小，仅为2.2MiB，远小于其他SOTA模型（340MiB-4.18GiB）。

🎯 应用场景

该研究成果可广泛应用于需要时间序列预测的领域，尤其是在资源受限的边缘设备上。例如，在医疗保健领域，可以用于患者生理数据的实时监测和疾病预警；在金融领域，可以用于股票价格预测和风险管理；在环境监测领域，可以用于空气质量预测和灾害预警。该框架的轻量化和参数高效性使其能够部署在各种嵌入式设备上，实现智能化应用。

📄 摘要（原文）

We address the challenge of adapting pre-trained Large Language Models (LLMs) for multivariate time-series analysis, where their deployment is often hindered by prohibitive computational and memory demands. Our solution, One-for-All, introduces Gaussian Rank-Stabilized Low-Rank Adapters (rsLoRA) to enable parameter-efficient fine-tuning of frozen LLMs. While inspired by LoRA, rsLoRA introduces a mathematically grounded rank-stabilization mechanism that enables provable gradient stability at low ranks a novel contribution absent in prior PEFT methods. Our framework injects trainable rank decomposition matrices (rank 16) into positional embeddings and output layers, while keeping self-attention weights fixed. This design reduces trainable parameters by 6.8$\times$ (vs. TimesNet), 21$\times$ (vs. GPT4TS), and 11.8$\times$ (vs. TIME-LLM), while achieving a 168-1,776$\times$ smaller memory footprint (2.2MiB vs. 340MiB-4.18GiB in SOTA models). Rigorous evaluation across six time-series tasks demonstrates that One-for-All achieves state-of-the-art efficiency-accuracy trade-offs: 5.5$\times$ higher parameter efficiency (MSE=5.50) than TimesNet and 21$\times$ better than GPT4TS, while matching their forecasting accuracy (MSE=0.33). The framework's stability is validated through consistent performance across diverse horizons (96-720 steps) and datasets (ETT, Weather, M3, M4), with 98.3% fewer parameters than conventional transformers. These advances enable deployment on edge devices for healthcare, finance, and environmental monitoring without compromising performance.

One-for-All: A Lightweight Stabilized and Parameter-Efficient Pre-trained LLM for Time Series Forecasting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理