SenTSR-Bench: Thinking with Injected Knowledge for Time-Series Reasoning

作者: Zelin He, Boran Han, Xiyuan Zhang, Shuai Zhang, Haotian Lin, Qi Zhu, Haoyang Fang, Danielle C. Maddix, Abdul Fatir Ansari, Akash Chandrayan, Abhinav Pradhan, Bernie Wang, Matthew Reimherr

分类: cs.LG, cs.AI, cs.CL, stat.ML

发布日期: 2026-02-23

备注: Accepted by the 29th International Conference on Artificial Intelligence and Statistics (AISTATS 2026)

💡 一句话要点

提出SenTSR-Bench，通过知识注入增强时序数据诊断推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 时序数据推理 知识注入 大语言模型 强化学习 诊断推理

📋 核心要点

现有通用大语言模型缺乏时序数据领域的专业知识，而微调的时序模型又缺乏泛化推理能力。
提出混合知识注入框架，将时序模型生成的知识注入到通用大语言模型的推理过程中，提升推理效果。
利用强化学习生成富含知识的推理轨迹，降低知识注入的成本，并在真实工业数据集上验证有效性。

📝 摘要（中文）

本文提出了一种混合知识注入框架，旨在弥合通用推理大语言模型(GRLM)和微调时序数据语言模型(TSLM)之间的差距。GRLM具备强大的推理能力，但缺乏领域知识；TSLM理解时序模式，但缺乏泛化推理能力。该框架将TSLM生成的洞察直接注入到GRLM的推理过程中，从而实现具有领域知识的时序推理。为降低知识注入微调的数据收集成本，本文进一步利用基于强化学习的可验证奖励方法(RLVR)来获取富含知识的推理轨迹，然后将这些轨迹迁移到GRLM中进行高效的知识注入。此外，本文发布了SenTSR-Bench，一个从真实工业操作中收集的多变量时序诊断推理基准。实验结果表明，该方法在SenTSR-Bench和其他公共数据集上始终优于TSLM（9.1%-26.1%）和GRLM（7.9%-22.4%），提供了稳健的、上下文感知的时序诊断洞察。

🔬 方法详解

问题定义：现有方法在时序数据诊断推理中面临困境。通用大语言模型(GRLM)虽然具备强大的推理能力，但缺乏理解复杂时序模式所需的领域知识。另一方面，专门针对时序数据微调的语言模型(TSLM)虽然理解这些模式，但缺乏将推理泛化到更复杂问题的能力。因此，如何有效地将领域知识注入到通用推理模型中，以提升其在时序数据诊断推理任务中的表现，是一个亟待解决的问题。

核心思路：本文的核心思路是通过知识注入，将TSLM的领域知识融入到GRLM的推理过程中。具体来说，TSLM负责生成关于时序数据的洞察，这些洞察随后被注入到GRLM的推理轨迹中，引导GRLM进行更准确的诊断推理。这种混合方法旨在结合两者的优势，既利用GRLM的通用推理能力，又利用TSLM的领域知识。

技术框架：整体框架包含以下几个主要阶段：1) 使用TSLM对时序数据进行分析，生成领域相关的洞察；2) 将这些洞察以某种形式（例如，提示或中间表示）注入到GRLM的推理过程中；3) GRLM利用注入的知识进行诊断推理，生成最终的诊断结果；4) 使用强化学习方法，通过可验证的奖励信号，自动生成高质量的知识注入数据，降低人工标注成本。

关键创新：本文的关键创新在于提出了一种混合知识注入框架，该框架能够有效地将TSLM的领域知识融入到GRLM的推理过程中。此外，利用强化学习自动生成知识注入数据也是一个重要的创新点，它降低了数据收集的成本，并提高了知识注入的效率。与现有方法相比，该方法能够更好地利用领域知识，从而提升时序数据诊断推理的准确性。

关键设计：在知识注入方面，具体实现方式未知，论文中没有详细描述如何将TSLM的洞察注入到GRLM的推理轨迹中。强化学习部分，使用了可验证的奖励函数(RLVR)，奖励函数的设计至关重要，需要能够准确地评估推理轨迹的质量。具体的网络结构和参数设置未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在SenTSR-Bench和其它公开数据集上，相比于单独使用TSLM，性能提升了9.1%-26.1%；相比于单独使用GRLM，性能提升了7.9%-22.4%。这些结果表明，该方法能够有效地利用领域知识，显著提升时序数据诊断推理的准确性。

🎯 应用场景

该研究成果可广泛应用于工业运维、医疗健康、金融风控等领域。例如，在工业运维中，可以利用该方法对设备运行状态进行诊断，及时发现潜在故障；在医疗健康领域，可以辅助医生进行疾病诊断，提高诊断效率和准确性；在金融风控领域，可以用于识别欺诈行为，降低金融风险。该研究有望推动时序数据分析技术的发展，为各行业提供更智能、更高效的解决方案。

📄 摘要（原文）

Time-series diagnostic reasoning is essential for many applications, yet existing solutions face a persistent gap: general reasoning large language models (GRLMs) possess strong reasoning skills but lack the domain-specific knowledge to understand complex time-series patterns. Conversely, fine-tuned time-series LLMs (TSLMs) understand these patterns but lack the capacity to generalize reasoning for more complicated questions. To bridge this gap, we propose a hybrid knowledge-injection framework that injects TSLM-generated insights directly into GRLM's reasoning trace, thereby achieving strong time-series reasoning with in-domain knowledge. As collecting data for knowledge injection fine-tuning is costly, we further leverage a reinforcement learning-based approach with verifiable rewards (RLVR) to elicit knowledge-rich traces without human supervision, then transfer such an in-domain thinking trace into GRLM for efficient knowledge injection. We further release SenTSR-Bench, a multivariate time-series-based diagnostic reasoning benchmark collected from real-world industrial operations. Across SenTSR-Bench and other public datasets, our method consistently surpasses TSLMs by 9.1%-26.1% and GRLMs by 7.9%-22.4%, delivering robust, context-aware time-series diagnostic insights.

SenTSR-Bench: Thinking with Injected Knowledge for Time-Series Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理