Learning to Route: Per-Sample Adaptive Routing for Multimodal Multitask Prediction
作者: Marzieh Ajirak, Oded Bein, Ellen Rose Bowen, Dora Kanellopoulos, Avital Falk, Faith M. Gunning, Nili Solomonov, Logan Grosenick
分类: cs.LG, cs.AI
发布日期: 2025-09-06 (更新: 2025-09-29)
💡 一句话要点
提出一种基于样本自适应路由的多模态多任务预测框架,解决数据异构和任务交互问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自适应路由 多模态学习 多任务学习 数据异构性 心理治疗 个性化医疗 端到端训练
📋 核心要点
- 现有方法难以有效处理多模态数据中普遍存在的异构性和任务间的复杂交互关系。
- 提出一种自适应路由架构,根据每个样本的特性动态选择模态处理路径和任务共享策略。
- 实验表明,该方法在预测抑郁和焦虑结果方面优于固定多任务或单任务基线,并提供可解释的路由策略。
📝 摘要(中文)
本文提出了一种统一的自适应路由框架,用于多任务、多模态预测场景,其中数据异构性和任务交互因样本而异。受心理治疗应用的启发,该应用中结构化评估和非结构化临床医生笔记与部分缺失数据和相关结果共存,我们引入了一种基于路由的架构,该架构动态地选择模态处理路径和基于每个样本的任务共享策略。我们的模型定义了多个模态路径,包括文本和数值特征的原始和融合表示,并学习通过最具信息量的专家组合来路由每个输入。任务特定的预测由共享或独立的头部产生,具体取决于路由决策,并且整个系统是端到端训练的。我们在合成数据和真实心理治疗笔记上评估了该模型,预测抑郁和焦虑结果。实验表明,我们的方法始终优于固定的多任务或单任务基线,并且学习到的路由策略提供了对模态相关性和任务结构的可解释的见解。这通过实现针对每个受试者的自适应信息处理来解决个性化医疗保健中的关键挑战,从而解决数据异构性和任务相关性。应用于心理治疗,该框架可以通过个性化的干预策略来改善心理健康结果,提高治疗分配的精确性并提高临床成本效益。
🔬 方法详解
问题定义:论文旨在解决多模态多任务学习中,由于数据异构性和任务相关性变化导致模型性能下降的问题。现有方法通常采用固定的模态融合和任务共享策略,无法根据不同样本的特点进行自适应调整,导致信息利用效率低下。特别是在医疗领域,如心理治疗,结构化评估数据和非结构化临床笔记共存,且数据缺失情况各异,任务(如预测抑郁和焦虑)之间存在相关性,固定策略难以有效应对。
核心思路:论文的核心思路是引入一个可学习的路由机制,该机制能够根据每个输入样本的特征,动态地选择最合适的模态处理路径和任务共享策略。通过这种方式,模型可以针对不同的样本自适应地调整信息处理流程,从而更有效地利用数据,提高预测精度。这种自适应性使得模型能够更好地捕捉数据中的异构性和任务间的复杂关系。
技术框架:整体架构包含以下几个主要模块:1) 多模态输入:接收文本和数值特征作为输入。2) 模态路径:定义多个模态处理路径,包括原始模态表示和融合模态表示。3) 路由模块:根据输入样本的特征,学习一个路由策略,决定每个样本应该通过哪个模态路径。4) 任务特定头部:根据路由决策,选择共享或独立的任务特定头部进行预测。整个系统采用端到端的方式进行训练。
关键创新:最重要的技术创新点在于提出了基于样本的自适应路由机制。与传统的固定模态融合和任务共享策略不同,该方法能够根据每个样本的特性动态地选择信息处理路径,从而更好地适应数据异构性和任务相关性的变化。这种自适应性使得模型能够更有效地利用数据,提高预测精度。
关键设计:路由模块的设计是关键。具体实现细节未知,但可以推测可能采用注意力机制或门控机制来实现。损失函数的设计也至关重要,需要同时考虑预测精度和路由策略的合理性。网络结构的选择也需要根据具体任务和数据特点进行调整。论文中提到整个系统是端到端训练的,这意味着路由策略的学习与预测任务的学习是联合进行的,从而保证了路由策略的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在合成数据和真实心理治疗笔记上均取得了显著的性能提升。在预测抑郁和焦虑结果方面,该方法始终优于固定的多任务或单任务基线。此外,学习到的路由策略提供了对模态相关性和任务结构的可解释性见解,有助于理解模型的工作机制。
🎯 应用场景
该研究成果可广泛应用于个性化医疗保健领域,尤其是在心理健康领域具有重要应用价值。通过自适应地处理结构化和非结构化数据,并考虑任务间的相关性,该框架可以提高心理疾病预测的准确性,从而改善治疗方案的制定,提高治疗效果,并最终降低医疗成本。此外,该方法还可以应用于其他多模态多任务学习场景,如金融风险评估、智能推荐等。
📄 摘要(原文)
We propose a unified framework for adaptive routing in multitask, multimodal prediction settings where data heterogeneity and task interactions vary across samples. Motivated by applications in psychotherapy where structured assessments and unstructured clinician notes coexist with partially missing data and correlated outcomes, we introduce a routing-based architecture that dynamically selects modality processing pathways and task-sharing strategies on a per-sample basis. Our model defines multiple modality paths, including raw and fused representations of text and numeric features and learns to route each input through the most informative expert combination. Task-specific predictions are produced by shared or independent heads depending on the routing decision, and the entire system is trained end-to-end. We evaluate the model on both synthetic data and real-world psychotherapy notes predicting depression and anxiety outcomes. Our experiments show that our method consistently outperforms fixed multitask or single-task baselines, and that the learned routing policy provides interpretable insights into modality relevance and task structure. This addresses critical challenges in personalized healthcare by enabling per-subject adaptive information processing that accounts for data heterogeneity and task correlations. Applied to psychotherapy, this framework could improve mental health outcomes, enhance treatment assignment precision, and increase clinical cost-effectiveness through personalized intervention strategies.