TimeSRL: Generalizable Time-Series Behavioral Modeling via Semantic RL-Tuned LLMs -- A Case Study in Mental Health
作者: Yuang Fan, Lilin Xu, Millie Wu, Jingping Nie, Qingyu Chen, Yuzhe Yang, Zhuo Zhang, Xin Liu, Subigya Nepal, Xiaofan Jiang, Xuhai "Orson" Xu
分类: cs.LG, cs.AI, cs.HC
发布日期: 2026-05-20
💡 一句话要点
TimeSRL:通过语义强化学习微调LLM,实现可泛化的时间序列行为建模,应用于精神健康领域。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时间序列建模 大型语言模型 强化学习 语义抽象 跨数据集泛化 精神健康 行为预测
📋 核心要点
- 现有时间序列行为建模方法在跨数据集泛化性方面存在挑战,传统机器学习方法易过拟合,LLM难以处理长期异构数据。
- TimeSRL通过引入语义瓶颈,将原始信号抽象为自然语言,迫使模型基于语义概念进行推理,提高泛化能力。
- 实验表明,TimeSRL在精神健康预测任务中,显著优于现有方法,尤其是在跨数据集泛化性能上,MAE降低显著。
📝 摘要(中文)
纵向被动感知能够实现连续的健康预测,但模型在跨数据集分布偏移下通常会失效。传统的机器学习方法过度拟合特定人群的伪影,而大型语言模型(LLM)难以对长期、异构的时间序列进行可靠的推理。我们提出了TimeSRL,一个两阶段的LLM框架,通过显式的语义瓶颈来传递预测。该模型首先将原始信号抽象成高级自然语言,然后仅从这些抽象中预测行为结果。这迫使模型对语义概念进行推理,我们认为这些概念比原始数字更具泛化性。我们使用带有可验证奖励的强化学习(RLVR)的群体相对策略优化(GRPO)端到端地优化此过程,在没有黄金中间注释的情况下学习与结果对齐的抽象。在精神健康预测的实例化中,TimeSRL在一个旨在严格测试跨人群泛化的留一数据集(LOSO)协议的基准测试中,实现了最先进的性能,焦虑的平均绝对误差(MAE)比强大的非LLM ML和LLM基线分别降低了3.1-10.1%和9.5-44.1%,抑郁症的平均绝对误差(MAE)分别降低了3.2-9.6%和27.4-57.6%(所有$p$s<0.05)。TimeSRL在跨不同传感管道的跨基准测试迁移中显著优于先前的方法,在没有目标域微调的情况下,其性能可与自身在域内的性能相媲美。这些结果表明,语义抽象是可重用的,并为通过RL微调的LLM实现可泛化的行为建模指明了新的方向。
🔬 方法详解
问题定义:现有时间序列行为建模方法在跨数据集泛化性方面表现不佳。传统机器学习方法容易受到特定数据集的偏差影响,导致在新数据集上性能下降。大型语言模型虽然具有强大的推理能力,但在处理长期、异构的时间序列数据时,难以进行可靠的推理。因此,如何提高时间序列行为建模的泛化能力是一个关键问题。
核心思路:TimeSRL的核心思路是引入一个语义瓶颈,将原始的时间序列数据抽象成高级的自然语言描述。通过这种方式,模型不再直接基于原始数据进行预测,而是基于语义概念进行推理。作者认为,语义概念比原始数据更具有泛化性,因为它们能够捕捉到数据背后的本质含义,从而减少对特定数据集的依赖。
技术框架:TimeSRL是一个两阶段的LLM框架。第一阶段,模型将原始的时间序列信号抽象成高级的自然语言描述。第二阶段,模型仅基于这些自然语言描述来预测行为结果。为了优化这个过程,作者使用了带有可验证奖励的强化学习(RLVR)的群体相对策略优化(GRPO),从而在没有人工标注的情况下,学习到与结果对齐的抽象。
关键创新:TimeSRL最重要的技术创新点在于引入了语义瓶颈,并使用强化学习来优化语义抽象的过程。与现有方法相比,TimeSRL不是直接基于原始数据进行预测,而是通过语义抽象来提高模型的泛化能力。此外,使用强化学习可以自动学习到与结果对齐的抽象,而无需人工标注。
关键设计:TimeSRL的关键设计包括:1) 使用LLM作为语义抽象器,将原始信号转换为自然语言描述;2) 使用GRPO和RLVR来优化LLM的抽象能力,使其能够生成与预测任务相关的语义信息;3) 设计合适的奖励函数,鼓励模型生成高质量的语义抽象。
🖼️ 关键图片
📊 实验亮点
TimeSRL在精神健康预测任务中取得了显著的性能提升。在跨数据集泛化测试中,TimeSRL的焦虑预测MAE比非LLM ML基线降低了3.1-10.1%,比LLM基线降低了9.5-44.1%;抑郁症预测MAE比非LLM ML基线降低了3.2-9.6%,比LLM基线降低了27.4-57.6%(所有$p$s<0.05)。TimeSRL在跨基准测试迁移中也表现出色,无需目标域微调即可达到与域内性能相媲美的水平。
🎯 应用场景
TimeSRL在精神健康领域具有广泛的应用前景,可以用于焦虑、抑郁等心理健康问题的早期预警和诊断。此外,该方法还可以应用于其他需要时间序列行为建模的领域,例如智能家居、金融风控等。通过对用户行为数据的分析,可以实现个性化的服务和风险管理。
📄 摘要(原文)
Longitudinal passive sensing enables continuous health prediction, yet models often fail under cross-dataset distribution shifts. Traditional ML overfits cohort-specific artifacts, while Large Language Models (LLMs) struggle to reason reliably over long, heterogeneous time-series. We introduce TimeSRL, a two-stage LLM framework that routes predictions through an explicit semantic bottleneck. The model first abstracts raw signals into high-level natural language, then predicts behavioral outcomes from these abstractions alone. This forces the model to reason over semantic concepts that we argue generalize better than raw numbers. We optimize this process end-to-end using Group Relative Policy Optimization (GRPO) with Reinforcement Learning from Verifiable Rewards (RLVR), learning outcome-aligned abstractions without gold intermediate annotations. Instantiated on mental-health prediction, TimeSRL achieves state-of-the-art performance on a benchmark designed to stress-test cross-cohort generalization under a rigorous leave-one-dataset-out (LOSO) protocol, reducing mean absolute error (MAE) over strong non-LLM ML and LLM baselines by 3.1--10.1% and 9.5--44.1% for anxiety, and 3.2--9.6% and 27.4--57.6% for depression (all $p$s<0.05). TimeSRL significantly outperforms prior methods in cross-benchmark transfer across different sensing pipelines, rivaling its own within-domain performance without target-domain fine-tuning. These results demonstrate that semantic abstractions are reusable and point to a new direction for generalizable behavior modeling via RL-tuned LLMs.