time2time: Causal Intervention in Hidden States to Simulate Rare Events in Time Series Foundation Models

作者: Debdeep Sanyal, Aaryan Nagpal, Dhruv Kumar, Murari Mandal, Saurabh Deshpande

分类: cs.LG, cs.AI

发布日期: 2025-09-06 (更新: 2025-10-04)

期刊: NeurIPS 2025 Workshop on Recent Advances in Time Series Foundation Models (BERT2S)

💡 一句话要点

提出时间序列Transformer模型的因果干预方法，模拟罕见事件并进行压力测试。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 时间序列预测 Transformer模型 因果干预 罕见事件模拟 压力测试

📋 核心要点

现有时间序列Transformer模型在预测常规模式方面表现出色，但缺乏对市场机制等语义概念的理解，难以模拟罕见事件。
论文提出激活移植方法，通过因果干预隐藏状态，将一个事件的统计特性注入到另一个事件中，从而控制模型的预测行为。
实验表明，该方法能够有效控制模型预测，注入崩盘语义诱导下跌预测，注入平静语义抑制崩盘，验证了模型内部存在语义化的表示。

📝 摘要（中文）

本文提出了一种名为“激活移植”的因果干预方法，用于时间序列Transformer基础模型，旨在探究模型是否真正理解了市场机制等语义概念，以及能否利用其内部表示来模拟市场崩盘等罕见高风险事件。该方法通过将一个事件（如历史崩盘）的统计矩强加到另一个事件（如平静期）的隐藏状态上，从而在正向传播过程中操纵预测结果。实验结果表明，注入崩盘语义会诱导模型预测下跌，而注入平静语义则会抑制崩盘并恢复稳定性。此外，模型编码了事件严重程度的渐变概念，潜在向量范数与系统性冲击的幅度直接相关。该方法在Toto（仅解码器）和Chronos（编码器-解码器）两种架构不同的时间序列Transformer模型上进行了验证，结果表明可操纵的、语义化的表示是大规模时间序列Transformer模型的稳健特性。该研究为潜在概念空间提供了证据，将可解释性从事后归因转变为直接因果干预，并为战略压力测试实现了语义“假设分析”。

🔬 方法详解

问题定义：现有时间序列预测模型，特别是基于Transformer的模型，虽然在常见的时间序列预测任务上表现良好，但缺乏对底层语义概念的理解，例如市场状态、经济周期等。这导致模型难以应对罕见事件，如金融危机、突发疫情等，并且缺乏可解释性和可控性。现有的方法主要集中在事后归因，难以进行主动干预和“假设分析”。

核心思路：论文的核心思路是通过因果干预Transformer模型的隐藏状态，来模拟罕见事件。具体来说，就是将一个事件（例如，历史上的市场崩盘）的隐藏状态的统计特性（例如，均值和方差）“移植”到另一个事件（例如，当前平静的市场状态）的隐藏状态上。这样，模型就会受到“移植”事件的影响，从而改变其预测行为。这种方法的核心在于假设Transformer模型的隐藏状态编码了事件的语义信息，并且可以通过操纵这些隐藏状态来控制模型的预测。

技术框架：该方法主要包含以下几个步骤： 1. 选择源事件和目标事件：选择一个要模拟的源事件（例如，历史崩盘）和一个要进行干预的目标事件（例如，当前平静期）。 2. 提取隐藏状态：从源事件和目标事件的Transformer模型中提取相应的隐藏状态。 3. 计算统计矩：计算源事件隐藏状态的统计矩（例如，均值和方差）。 4. 激活移植：将源事件的统计矩强加到目标事件的隐藏状态上，从而修改目标事件的隐藏状态。 5. 进行预测：使用修改后的隐藏状态进行预测，观察模型预测行为的变化。

关键创新：该方法最重要的技术创新点在于提出了“激活移植”的概念，这是一种直接操纵Transformer模型内部表示的因果干预方法。与传统的后处理方法不同，该方法可以直接控制模型的预测行为，并且可以用于模拟罕见事件和进行“假设分析”。此外，该方法还揭示了Transformer模型内部存在语义化的表示，这为理解Transformer模型的工作机制提供了新的视角。

关键设计：在激活移植过程中，关键的设计包括： 1. 隐藏状态的选择：选择哪个Transformer层的隐藏状态进行移植会影响干预的效果。论文中实验了不同层的隐藏状态，并发现某些层对干预更敏感。 2. 统计矩的选择：选择哪些统计矩进行移植也会影响干预的效果。论文中主要使用了均值和方差，但也可以考虑使用更高阶的矩。 3. 移植的强度：可以调整移植的强度，例如，只移植一部分统计矩，或者对移植后的隐藏状态进行缩放。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过激活移植，可以有效地控制时间序列Transformer模型的预测行为。注入崩盘语义能够诱导模型预测下跌，而注入平静语义则能够抑制崩盘。此外，研究发现模型编码了事件严重程度的渐变概念，潜在向量范数与系统性冲击的幅度直接相关。该方法在Toto和Chronos两种架构不同的模型上均取得了显著效果，验证了其通用性。

🎯 应用场景

该研究成果可应用于金融风险管理、系统稳定性分析、以及其他需要预测和应对罕见事件的领域。例如，金融机构可以使用该方法对投资组合进行压力测试，评估其在极端市场条件下的表现。此外，该方法还可以用于改进时间序列预测模型的鲁棒性和可解释性，使其能够更好地应对现实世界的复杂情况。

📄 摘要（原文）

While transformer-based foundation models excel at forecasting routine patterns, two questions remain: do they internalize semantic concepts such as market regimes, or merely fit curves? And can their internal representations be leveraged to simulate rare, high-stakes events such as market crashes? To investigate this, we introduce activation transplantation, a causal intervention that manipulates hidden states by imposing the statistical moments of one event (e.g., a historical crash) onto another (e.g., a calm period) during the forward pass. This procedure deterministically steers forecasts: injecting crash semantics induces downturn predictions, while injecting calm semantics suppresses crashes and restores stability. Beyond binary control, we find that models encode a graded notion of event severity, with the latent vector norm directly correlating with the magnitude of systemic shocks. Validated across two architecturally distinct TSFMs, Toto (decoder only) and Chronos (encoder-decoder), our results demonstrate that steerable, semantically grounded representations are a robust property of large time series transformers. Our findings provide evidence for a latent concept space that governs model predictions, shifting interpretability from post-hoc attribution to direct causal intervention, and enabling semantic "what-if" analysis for strategic stress-testing.

time2time: Causal Intervention in Hidden States to Simulate Rare Events in Time Series Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理