Filtered not Mixed: Stochastic Filtering-Based Online Gating for Mixture of Large Language Models

📄 arXiv: 2406.02969v2 📥 PDF

作者: Raeid Saqur, Anastasis Kratsios, Florian Krach, Yannick Limmer, Jacob-Junqi Tian, John Willes, Blanka Horvath, Frank Rudzicz

分类: cs.LG, cs.AI, cs.CL, q-fin.CP, q-fin.MF

发布日期: 2024-06-05 (更新: 2025-02-20)

备注: 33 pages, 5 Appendix sections


💡 一句话要点

提出MoE-F:基于随机滤波的在线门控混合大语言模型,提升时间序列预测精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 大型语言模型 时间序列预测 随机滤波 在线学习

📋 核心要点

  1. 现有静态MoE方法无法有效适应时间序列预测中LLM性能的动态变化,限制了预测精度。
  2. MoE-F采用时间自适应随机滤波技术,将专家选择建模为HMM,利用Wohman-Shiryaev滤波器进行在线门控。
  3. 在金融市场预测任务中,MoE-F相比最佳LLM专家,F1指标绝对提升17%,相对提升48.5%。

📝 摘要(中文)

本文提出了一种名为MoE-F的机制,用于组合N个预训练的大型语言模型(LLM),以进行在线时间序列预测,通过自适应地预测每个时间步LLM预测的最佳权重。该机制利用每个专家运行性能中的条件信息来预测LLM的最佳组合,从而预测时间序列的下一步。与静态(学习的)专家混合(MoE)方法不同,我们的方法采用时间自适应随机滤波技术来组合专家。通过将专家选择问题构建为有限状态空间、连续时间隐马尔可夫模型(HMM),我们可以利用Wohman-Shiryaev滤波器。我们的方法首先构建N个与每个LLM对应的并行滤波器。每个滤波器根据其可访问的信息提出LLM的最佳组合。随后,对N个滤波器输出进行优化聚合,以最大化其鲁棒的预测能力,并通过闭式表达式有效地计算此更新,从而生成我们的集成预测器。我们在金融市场运动预测任务上进行了实证评估,MoE-F在基于流媒体新闻预测短期市场走势方面,相对于表现最佳的单个LLM专家,获得了显著的17%绝对和48.5%相对F1指标提升。此外,我们提供了经验证据,证明在长时程时间序列预测领域,MoE-F在专业模型上的应用也获得了显著的性能提升。

🔬 方法详解

问题定义:论文旨在解决如何有效组合多个预训练LLM,以提高在线时间序列预测的准确性。现有静态MoE方法无法根据时间序列的动态变化调整LLM的权重,导致次优的预测结果。这些方法通常需要大量的训练数据来学习专家之间的权重,并且难以适应新的数据模式。

核心思路:论文的核心思路是将专家选择问题建模为一个有限状态空间、连续时间隐马尔可夫模型(HMM),并利用Wohman-Shiryaev滤波器进行在线门控。通过这种方式,可以根据每个LLM的实时性能动态调整其权重,从而实现更准确的预测。这种方法避免了静态MoE方法需要大量训练数据的缺点,并且能够更好地适应新的数据模式。

技术框架:MoE-F框架包含以下主要步骤:1) 为每个LLM构建一个并行滤波器,该滤波器根据LLM的历史性能估计其在当前时间步的最佳权重。2) 使用Wohman-Shiryaev滤波器对每个LLM的输出进行加权,得到每个LLM的预测结果。3) 将所有LLM的预测结果进行聚合,得到最终的预测结果。聚合过程旨在最大化预测的鲁棒性,并通过闭式表达式高效计算。

关键创新:MoE-F的关键创新在于使用随机滤波技术进行在线门控。与传统的静态MoE方法不同,MoE-F能够根据每个LLM的实时性能动态调整其权重,从而更好地适应时间序列的动态变化。此外,MoE-F使用Wohman-Shiryaev滤波器,该滤波器具有理论上的最优性保证,可以确保预测的准确性。

关键设计:MoE-F的关键设计包括:1) 使用有限状态空间HMM对专家选择问题进行建模。2) 使用Wohman-Shiryaev滤波器进行在线门控。3) 使用闭式表达式进行高效的预测聚合。论文中没有明确提及具体的参数设置、损失函数或网络结构,因为该方法主要关注于滤波和聚合策略,而非特定模型的微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MoE-F在金融市场运动预测任务中表现出色,相对于表现最佳的单个LLM专家,F1指标绝对提升17%,相对提升48.5%。此外,在长时程时间序列预测领域,MoE-F也展现出优于专业模型的性能。这些实验结果表明,MoE-F能够有效整合多个LLM的优势,提高预测精度和鲁棒性。

🎯 应用场景

MoE-F可应用于金融市场预测、供应链管理、能源需求预测等多个领域,通过整合多个LLM的优势,提高预测精度和鲁棒性。该方法具有即插即用的特性,可快速集成到现有系统中,降低了部署成本。未来可进一步探索MoE-F在其他时间序列预测任务中的应用,并研究如何与其他先进的预测技术相结合。

📄 摘要(原文)

We propose MoE-F - a formalized mechanism for combining $N$ pre-trained Large Language Models (LLMs) for online time-series prediction by adaptively forecasting the best weighting of LLM predictions at every time step. Our mechanism leverages the conditional information in each expert's running performance to forecast the best combination of LLMs for predicting the time series in its next step. Diverging from static (learned) Mixture of Experts (MoE) methods, our approach employs time-adaptive stochastic filtering techniques to combine experts. By framing the expert selection problem as a finite state-space, continuous-time Hidden Markov model (HMM), we can leverage the Wohman-Shiryaev filter. Our approach first constructs N parallel filters corresponding to each of the $N$ individual LLMs. Each filter proposes its best combination of LLMs, given the information that they have access to. Subsequently, the N filter outputs are optimally aggregated to maximize their robust predictive power, and this update is computed efficiently via a closed-form expression, generating our ensemble predictor. Our contributions are: (I) the MoE-F plug-and-play filtering harness algorithm, (II) theoretical optimality guarantees of the proposed filtering-based gating algorithm (via optimality guarantees for its parallel Bayesian filtering and its robust aggregation steps), and (III) empirical evaluation and ablative results using state-of-the-art foundational and MoE LLMs on a real-world Financial Market Movement task where MoE-F attains a remarkable 17\% absolute and 48.5\% relative F1 measure improvement over the next best performing individual LLM expert predicting short-horizon market movement based on streaming news. Further, we provide empirical evidence of substantial performance gains in applying MoE-F over specialized models in the long-horizon time-series forecasting domain.