TiMi: Empower Time Series Transformers with Multimodal Mixture of Experts

作者: Jiafeng Lin, Yuxuan Wang, Huakun Luo, Zhongyi Pei, Jianmin Wang

分类: cs.LG

发布日期: 2026-02-25

💡 一句话要点

提出TiMi：利用多模态混合专家模型增强时间序列Transformer，提升预测精度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态时间序列预测 Transformer 混合专家模型 大型语言模型 因果推理

📋 核心要点

现有方法在多模态时间序列预测中，难以有效整合文本等模态信息，尤其是在模态对齐方面存在挑战。
TiMi利用大型语言模型进行因果推理，生成对未来发展的推断，并将其作为时间序列预测的指导。
TiMi通过引入多模态混合专家（MMoE）模块，增强Transformer模型的多模态预测能力，无需显式表示对齐，并在实验中取得SOTA性能。

📝 摘要（中文）

多模态时间序列预测因其能够利用其他模态中丰富的固有信息，提供比传统单模态模型更准确的预测而备受关注。然而，由于模态对齐方面的根本性挑战，现有方法通常难以有效地将多模态数据纳入预测，特别是对时间序列波动具有因果影响的文本信息，如紧急报告和政策公告。本文反思了文本信息在数值预测中的作用，并提出了具有多模态混合专家模型的时间序列Transformer，即TiMi，以释放大型语言模型的因果推理能力。具体而言，TiMi利用大型语言模型生成对未来发展的推断，作为时间序列预测的指导。为了无缝地将外生因素和时间序列整合到预测中，我们引入了一个多模态混合专家（MMoE）模块，作为一个轻量级插件，以增强基于Transformer的时间序列模型的多模态预测能力，从而消除了对显式表示级别对齐的需求。实验表明，我们提出的TiMi在十六个真实世界的多模态预测基准上表现出持续的最先进性能，优于先进的基线，同时提供强大的适应性和可解释性。

🔬 方法详解

问题定义：论文旨在解决多模态时间序列预测中，如何有效利用文本等外生信息，特别是当这些信息对时间序列具有因果影响时。现有方法在模态对齐方面存在困难，难以充分利用多模态数据提升预测精度。

核心思路：论文的核心思路是利用大型语言模型（LLM）的因果推理能力，从文本信息中提取对未来发展的推断，并将这些推断作为时间序列预测的指导。通过这种方式，将文本信息转化为对时间序列预测有用的先验知识。

技术框架：TiMi的整体框架包含以下几个主要模块：1) LLM推理模块：利用LLM对文本信息进行分析，生成对未来事件的推断。2) 多模态混合专家（MMoE）模块：将LLM的推断和时间序列数据进行融合，作为Transformer模型的输入。3) Transformer模型：基于融合后的输入进行时间序列预测。MMoE模块作为一个轻量级插件，可以方便地集成到现有的Transformer模型中。

关键创新：论文的关键创新在于：1) 利用LLM进行因果推理，为时间序列预测提供指导。2) 提出MMoE模块，实现多模态信息的有效融合，避免了显式的表示对齐。3) 将MMoE模块设计为轻量级插件，方便集成到现有的Transformer模型中。

关键设计：MMoE模块包含多个专家网络，每个专家网络负责处理特定模态的信息。通过一个门控网络，根据输入数据的特征，动态地选择合适的专家网络进行处理。损失函数包括预测损失和正则化损失，用于优化模型参数，并防止过拟合。具体的参数设置和网络结构细节在论文中有详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

TiMi在16个真实世界的多模态预测基准上取得了SOTA性能，显著优于现有的基线模型。实验结果表明，TiMi能够有效地利用文本信息提升预测精度，并具有良好的适应性和可解释性。具体的性能提升幅度在论文中有详细数据（未知）。

🎯 应用场景

该研究成果可应用于金融市场预测、供应链管理、公共卫生事件预警等领域。通过整合新闻报道、政策公告等文本信息，可以更准确地预测时间序列的未来趋势，为决策者提供更有价值的参考。未来，该方法有望扩展到更多领域，例如智能交通、能源管理等。

📄 摘要（原文）

Multimodal time series forecasting has garnered significant attention for its potential to provide more accurate predictions than traditional single-modality models by leveraging rich information inherent in other modalities. However, due to fundamental challenges in modality alignment, existing methods often struggle to effectively incorporate multimodal data into predictions, particularly textual information that has a causal influence on time series fluctuations, such as emergency reports and policy announcements. In this paper, we reflect on the role of textual information in numerical forecasting and propose Time series transformers with Multimodal Mixture-of-Experts, TiMi, to unleash the causal reasoning capabilities of LLMs. Concretely, TiMi utilizes LLMs to generate inferences on future developments, which serve as guidance for time series forecasting. To seamlessly integrate both exogenous factors and time series into predictions, we introduce a Multimodal Mixture-of-Experts (MMoE) module as a lightweight plug-in to empower Transformer-based time series models for multimodal forecasting, eliminating the need for explicit representation-level alignment. Experimentally, our proposed TiMi demonstrates consistent state-of-the-art performance on sixteen real-world multimodal forecasting benchmarks, outperforming advanced baselines while offering both strong adaptability and interpretability.

TiMi: Empower Time Series Transformers with Multimodal Mixture of Experts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理