Latent Space Data Fusion Outperforms Early Fusion in Multimodal Mental Health Digital Phenotyping Data

📄 arXiv: 2507.14175v1 📥 PDF

作者: Youcef Barkat, Dylan Hamitouche, Deven Parekh, Ivy Guo, David Benrimoh

分类: cs.LG, cs.AI, stat.AP

发布日期: 2025-07-10


💡 一句话要点

提出基于潜在空间融合的抑郁症预测模型,优于传统早期融合方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 潜在空间融合 精神健康 抑郁症预测 自编码器 神经网络 数字表型

📋 核心要点

  1. 传统精神疾病预测模型依赖单模态数据或早期融合,无法有效捕捉复杂多模态精神数据的内在联系。
  2. 论文提出一种基于自编码器和神经网络的组合模型(CM),通过潜在空间融合策略,有效整合多模态数据。
  3. 实验结果表明,CM在预测抑郁症状方面优于随机森林等传统方法,且泛化能力更强,过拟合现象更轻。

📝 摘要(中文)

背景:抑郁症和焦虑症等精神疾病需要改进的早期检测和个性化干预方法。传统的预测模型通常依赖于单模态数据或早期融合策略,无法捕捉精神数据的复杂多模态特性。中间(潜在空间)融合等高级集成技术可能提供更好的准确性和临床效用。方法:使用BRIGHTEN临床试验的数据,我们评估了中间(潜在空间)融合来预测每日抑郁症状(PHQ-2评分)。我们比较了使用随机森林(RF)模型实现的早期融合和使用自编码器和神经网络的组合模型(CM)实现的中间融合。数据集包括行为(基于智能手机)、人口统计学和临床特征。实验在多个时间分割和数据流组合中进行。使用均方误差(MSE)和决定系数(R2)评估性能。结果:在所有设置中,CM的性能均优于RF和线性回归(LR)基线,实现了更低的MSE(0.4985 vs. RF的0.5305)和更高的R2(0.4695 vs. 0.4356)。RF模型表现出过拟合的迹象,训练和测试性能之间存在较大差距,而CM保持了一致的泛化能力。当在CM中集成所有数据模态时,性能最佳(与RF相反),突出了潜在空间融合在捕捉复杂精神数据集中非线性交互方面的价值。结论:潜在空间融合为使用多模态精神健康数据进行预测提供了一种稳健的替代传统融合方法。未来的工作应探索模型可解释性和个体层面的预测,以进行临床部署。

🔬 方法详解

问题定义:论文旨在解决精神健康领域中,利用多模态数据进行抑郁症状预测时,传统早期融合方法无法有效捕捉数据间复杂关系的问题。现有方法容易忽略不同模态数据间的非线性交互,导致预测精度受限,且容易出现过拟合现象。

核心思路:论文的核心思路是采用潜在空间融合(Latent Space Fusion)策略。通过将不同模态的数据映射到共享的潜在空间中,模型能够学习到更深层次的关联和非线性关系。这种方法避免了简单地将原始特征拼接在一起,从而更好地捕捉多模态数据的内在结构。

技术框架:整体框架包含以下几个主要模块:1) 数据预处理:对来自智能手机的行为数据、人口统计学数据和临床数据进行清洗和标准化。2) 特征提取:使用自编码器(Autoencoders)分别从不同模态的数据中提取特征,将高维数据降维到低维的潜在空间。3) 潜在空间融合:将不同模态的潜在空间表示连接起来,形成一个统一的潜在空间表示。4) 预测模型:使用神经网络(Neural Network)对融合后的潜在空间表示进行学习,预测每日抑郁症状(PHQ-2评分)。

关键创新:最重要的技术创新点在于使用潜在空间融合来处理多模态精神健康数据。与传统的早期融合方法相比,潜在空间融合能够更好地捕捉不同模态数据之间的非线性关系和复杂交互。此外,使用自编码器进行特征提取,可以有效地降低数据维度,减少过拟合的风险。

关键设计:论文中,自编码器的具体结构和参数设置(如层数、神经元数量、激活函数等)未知,神经网络的结构也未详细描述。损失函数采用均方误差(MSE),用于衡量预测值与真实值之间的差异。实验中,使用了BRIGHTEN临床试验的数据,并进行了多次时间分割和数据流组合,以验证模型的鲁棒性。

📊 实验亮点

实验结果表明,基于潜在空间融合的组合模型(CM)在所有设置中均优于随机森林(RF)和线性回归(LR)基线。CM实现了更低的均方误差(MSE=0.4985,RF为0.5305)和更高的决定系数(R2=0.4695,RF为0.4356)。RF模型表现出明显的过拟合现象,而CM保持了较好的泛化能力。当CM集成所有数据模态时,性能最佳,验证了潜在空间融合在处理复杂精神健康数据方面的优势。

🎯 应用场景

该研究成果可应用于精神健康领域的早期筛查和个性化干预。通过整合智能手机行为数据、人口统计学数据和临床数据,可以更准确地预测个体抑郁症状,从而为患者提供及时的心理支持和治疗。未来,该方法有望扩展到其他精神疾病的预测和诊断,提升精神健康服务的效率和质量。

📄 摘要(原文)

Background: Mental illnesses such as depression and anxiety require improved methods for early detection and personalized intervention. Traditional predictive models often rely on unimodal data or early fusion strategies that fail to capture the complex, multimodal nature of psychiatric data. Advanced integration techniques, such as intermediate (latent space) fusion, may offer better accuracy and clinical utility. Methods: Using data from the BRIGHTEN clinical trial, we evaluated intermediate (latent space) fusion for predicting daily depressive symptoms (PHQ-2 scores). We compared early fusion implemented with a Random Forest (RF) model and intermediate fusion implemented via a Combined Model (CM) using autoencoders and a neural network. The dataset included behavioral (smartphone-based), demographic, and clinical features. Experiments were conducted across multiple temporal splits and data stream combinations. Performance was evaluated using mean squared error (MSE) and coefficient of determination (R2). Results: The CM outperformed both RF and Linear Regression (LR) baselines across all setups, achieving lower MSE (0.4985 vs. 0.5305 with RF) and higher R2 (0.4695 vs. 0.4356). The RF model showed signs of overfitting, with a large gap between training and test performance, while the CM maintained consistent generalization. Performance was best when integrating all data modalities in the CM (in contradistinction to RF), underscoring the value of latent space fusion for capturing non-linear interactions in complex psychiatric datasets. Conclusion: Latent space fusion offers a robust alternative to traditional fusion methods for prediction with multimodal mental health data. Future work should explore model interpretability and individual-level prediction for clinical deployment.