Explainable Multimodal Regression via Information Decomposition
作者: Zhaozhao Ma, Shujian Yu
分类: cs.LG
发布日期: 2025-12-26
备注: Project Page: https://github.com/zhaozhaoma/PIDReg
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于信息分解的可解释多模态回归框架,提升预测精度与可解释性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态回归 偏信息分解 可解释性 模态融合 神经影像
📋 核心要点
- 现有多模态回归方法缺乏对各模态贡献及其交互作用的有效解耦和量化工具,导致可解释性不足。
- 提出基于偏信息分解(PID)的多模态回归框架,将模态表示分解为独特、冗余和协同成分,提升可解释性。
- 实验表明,该框架在预测精度和可解释性方面优于现有方法,并支持模态选择以提高推理效率。
📝 摘要(中文)
多模态回归旨在从异构输入源预测连续目标,通常依赖于早期或晚期融合等策略。然而,现有方法缺乏解耦和量化每个模态及其交互作用的贡献的有效工具,限制了多模态融合的可解释性。本文提出了一种基于偏信息分解(PID)的新型多模态回归框架,该框架将模态特定的表示分解为独特、冗余和协同成分。基本的PID框架本质上是不确定的。为了解决这个问题,我们通过在潜在表示和变换后的响应变量(经过逆正态变换后)的联合分布中强制执行高斯性来引入归纳偏置,从而实现PID项的解析计算。此外,我们推导出一个闭式条件独立正则化器,以促进每个模态内独特信息的隔离。在六个真实世界数据集上的实验,包括一个基于多模态神经影像数据的大规模脑年龄预测案例研究,表明我们的框架在预测精度和可解释性方面优于最先进的方法,同时也能够进行知情的模态选择以实现高效推理。代码已开源。
🔬 方法详解
问题定义:多模态回归旨在利用来自不同模态的信息预测连续的目标变量。现有方法,如早期融合和晚期融合,难以解释每个模态的贡献以及模态之间的交互作用。缺乏量化模态重要性的手段,限制了模型的可解释性和调试能力。
核心思路:本文的核心思路是利用偏信息分解(Partial Information Decomposition, PID)来解耦不同模态的信息。PID可以将每个模态的信息分解为与其他模态共享的冗余信息、每个模态独有的信息以及模态之间协同产生的信息。通过这种分解,可以量化每个模态对预测的贡献,从而提高模型的可解释性。
技术框架:该框架首先对每个模态的输入进行特征提取,得到模态特定的表示。然后,利用PID将这些表示分解为独特、冗余和协同成分。为了解决PID的不确定性问题,该框架引入了高斯性假设,即假设潜在表示和变换后的响应变量的联合分布服从高斯分布。这使得PID项可以进行解析计算。此外,该框架还引入了一个条件独立正则化器,以促进每个模态内独特信息的隔离。最后,利用分解后的信息进行回归预测。
关键创新:该论文的关键创新在于将偏信息分解(PID)应用于多模态回归问题,并提出了一种基于高斯性假设和条件独立正则化的PID求解方法。与现有方法相比,该方法能够更有效地解耦和量化不同模态的信息,从而提高模型的可解释性。
关键设计:为了解决PID的不确定性问题,论文假设潜在表示和变换后的响应变量的联合分布服从高斯分布。这种假设使得PID项可以进行解析计算,避免了复杂的优化过程。此外,论文还设计了一个闭式条件独立正则化器,用于促进每个模态内独特信息的隔离。损失函数包括回归损失、PID损失和条件独立正则化损失。网络结构根据具体任务进行设计,通常包括特征提取模块和融合模块。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架在六个真实世界数据集上均优于现有方法。在脑年龄预测任务中,该方法能够更准确地预测脑年龄,并揭示不同脑区对脑年龄的影响。与现有方法相比,该方法在预测精度和可解释性方面均有显著提升,并且能够进行知情的模态选择以实现高效推理。
🎯 应用场景
该研究成果可应用于多种多模态回归任务,例如:医学影像分析(如脑年龄预测)、情感识别、自动驾驶等。通过量化各模态的贡献,可以更好地理解模型的决策过程,并为模态选择提供依据,从而提高模型的可靠性和效率。该方法在医疗诊断、人机交互等领域具有潜在的应用价值。
📄 摘要(原文)
Multimodal regression aims to predict a continuous target from heterogeneous input sources and typically relies on fusion strategies such as early or late fusion. However, existing methods lack principled tools to disentangle and quantify the individual contributions of each modality and their interactions, limiting the interpretability of multimodal fusion. We propose a novel multimodal regression framework grounded in Partial Information Decomposition (PID), which decomposes modality-specific representations into unique, redundant, and synergistic components. The basic PID framework is inherently underdetermined. To resolve this, we introduce inductive bias by enforcing Gaussianity in the joint distribution of latent representations and the transformed response variable (after inverse normal transformation), thereby enabling analytical computation of the PID terms. Additionally, we derive a closed-form conditional independence regularizer to promote the isolation of unique information within each modality. Experiments on six real-world datasets, including a case study on large-scale brain age prediction from multimodal neuroimaging data, demonstrate that our framework outperforms state-of-the-art methods in both predictive accuracy and interpretability, while also enabling informed modality selection for efficient inference. Implementation is available at https://github.com/zhaozhaoma/PIDReg.