LENS: LLM-Enabled Narrative Synthesis for Mental Health by Aligning Multimodal Sensing with Language Models
作者: Wenxuan Xu, Arvind Pillai, Subigya Nepal, Amanda C Collins, Daniel M Mackin, Michael V Heinz, Tess Z Griffin, Nicholas C Jacobson, Andrew Campbell
分类: cs.CL, cs.AI
发布日期: 2025-12-28
备注: 22 pages, 9 figures, under review
💡 一句话要点
LENS:通过对齐多模态传感与语言模型,实现心理健康的LLM驱动叙事合成
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态融合 心理健康 自然语言生成 大型语言模型 时间序列分析
📋 核心要点
- 现有方法难以将长时间序列的多模态健康传感数据转化为自然语言,且缺乏大规模配对的传感器-文本数据集。
- LENS框架通过构建大规模传感器-文本数据集,并训练patch-level编码器将传感器信号投影到LLM的表征空间,实现多模态数据对齐。
- 实验结果表明,LENS在NLP指标和症状严重程度准确性上优于基线,用户研究也验证了其生成的叙述的临床意义。
📝 摘要(中文)
多模态健康传感为评估心理健康提供了丰富的行为信号,但将这些数值时间序列测量转化为自然语言仍然具有挑战性。当前的LLM无法原生摄取长时间的传感器数据流,并且配对的传感器-文本数据集非常稀缺。为了解决这些挑战,我们引入了LENS,一个将多模态传感数据与语言模型对齐,以生成临床心理健康叙事的框架。LENS首先通过将与抑郁和焦虑症状相关的生态瞬时评估(EMA)响应转化为自然语言描述,构建一个大规模数据集,从258名参与者中产生超过100,000个传感器-文本问答对。为了实现原生时间序列集成,我们训练了一个patch-level编码器,将原始传感器信号直接投影到LLM的表征空间中。结果表明,LENS在标准NLP指标和症状严重程度准确性的任务特定指标上优于强大的基线。一项由13名心理健康专业人员参与的用户研究进一步表明,LENS生成的叙述是全面且具有临床意义的。最终,我们的方法推进了LLM作为健康传感接口的应用,为可以推理原始行为信号并支持下游临床决策的模型提供了一条可扩展的路径。
🔬 方法详解
问题定义:论文旨在解决将多模态健康传感数据(如传感器时间序列)转化为自然语言叙述,以辅助心理健康评估的问题。现有方法的痛点在于,大型语言模型(LLM)难以直接处理长时间的传感器数据流,且缺乏大规模的配对传感器-文本数据集用于训练。
核心思路:论文的核心思路是将多模态传感器数据与LLM对齐,使其能够理解和生成与心理健康相关的自然语言叙述。具体而言,通过构建大规模的传感器-文本数据集,并训练一个patch-level编码器,将传感器信号嵌入到LLM的表征空间中,从而实现多模态数据的融合。
技术框架:LENS框架包含以下主要模块:1) 数据集构建:将生态瞬时评估(EMA)响应转化为自然语言描述,构建大规模传感器-文本数据集。2) Patch-level编码器:训练一个编码器,将原始传感器信号投影到LLM的表征空间。3) LLM:使用LLM生成与心理健康相关的自然语言叙述。
关键创新:最重要的技术创新点在于patch-level编码器的设计,它能够将原始传感器信号直接嵌入到LLM的表征空间中,从而使LLM能够原生处理时间序列数据。与现有方法相比,LENS无需手动特征工程或复杂的预处理步骤,即可实现多模态数据的融合。
关键设计:论文的关键设计包括:1) EMA响应的自然语言转化策略,确保生成高质量的传感器-文本对。2) Patch-level编码器的网络结构和训练目标,使其能够有效地提取传感器信号的特征并将其嵌入到LLM的表征空间中。3) LLM的选择和微调策略,使其能够生成准确且具有临床意义的心理健康叙述。具体参数设置和损失函数等细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
LENS在标准NLP指标和症状严重程度准确性的任务特定指标上均优于强大的基线模型。用户研究表明,心理健康专业人员认为LENS生成的叙述是全面且具有临床意义的。这些结果表明,LENS能够有效地将多模态传感器数据转化为有用的临床信息,具有重要的应用价值。
🎯 应用场景
该研究成果可应用于心理健康监测、诊断和治疗等领域。通过自动生成与患者行为相关的自然语言叙述,LENS可以帮助临床医生更好地理解患者的心理状态,并制定个性化的治疗方案。此外,该技术还可以用于远程健康监测和心理健康筛查,提高心理健康服务的可及性和效率。
📄 摘要(原文)
Multimodal health sensing offers rich behavioral signals for assessing mental health, yet translating these numerical time-series measurements into natural language remains challenging. Current LLMs cannot natively ingest long-duration sensor streams, and paired sensor-text datasets are scarce. To address these challenges, we introduce LENS, a framework that aligns multimodal sensing data with language models to generate clinically grounded mental-health narratives. LENS first constructs a large-scale dataset by transforming Ecological Momentary Assessment (EMA) responses related to depression and anxiety symptoms into natural-language descriptions, yielding over 100,000 sensor-text QA pairs from 258 participants. To enable native time-series integration, we train a patch-level encoder that projects raw sensor signals directly into an LLM's representation space. Our results show that LENS outperforms strong baselines on standard NLP metrics and task-specific measures of symptom-severity accuracy. A user study with 13 mental-health professionals further indicates that LENS-produced narratives are comprehensive and clinically meaningful. Ultimately, our approach advances LLMs as interfaces for health sensing, providing a scalable path toward models that can reason over raw behavioral signals and support downstream clinical decision-making.