A Mutual Information Lower Bound for Multimodal Regression Active Learning
作者: Leonardo Ferreira Guilhoto, Akshat Kaushal, Paris Perdikaris
分类: cs.LG, cs.CE, cs.IT, stat.ML
发布日期: 2026-05-14
💡 一句话要点
提出MI-LB主动学习方法,解决多模态回归中不确定性采样问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主动学习 多模态回归 认知不确定性 互信息下界 混合密度网络
📋 核心要点
- 现有主动学习方法在多模态回归问题中,无法有效处理认知不确定性,导致采样效率低下。
- 论文提出双索引框架,将不确定性分解为认知和偶然两部分,并以认知索引与输出的互信息为优化目标。
- 通过推导互信息下界MI-LB,实现了混合密度网络集成上的闭式解,并在多模态基准测试中取得了优异效果。
📝 摘要(中文)
针对连续回归的主动学习,当预测分布是多模态时,缺乏针对认知不确定性的获取函数:方差忽略了模态差异,而诸如BALD之类的信息理论目标是为离散输出设计的。本文引入了一个双索引框架,明确区分了两种不确定性来源:一个随机索引选择竞争模型假设(认知来源),另一个控制假设内的随机性(偶然来源)。框架内的熵分解将输出与认知索引之间的互信息确定为一个有原则的获取目标,并且证明了该量随着模型在不断增长的数据集上训练而消失,证实了它准确地捕获了数据可以解决的不确定性。由于这种互信息对于连续输出是难以处理的,因此推导了互信息下界(MI-LB)获取函数,这是一种混合密度网络集成的闭式近似。在具有多模态系统的基准测试中,MI-LB匹配或击败了所有评估的基线,并且是唯一始终这样做的方法——基于几何和Fisher的基线仅在输入空间已经编码了多模态时才具有竞争力,否则会崩溃。
🔬 方法详解
问题定义:论文旨在解决多模态回归问题中的主动学习采样问题。传统的主动学习方法,如基于方差的方法,无法有效捕捉多模态分布中的不确定性,而信息论方法(如BALD)则主要针对离散输出设计,不适用于连续回归。现有方法在处理多模态数据时,要么性能下降,要么依赖于输入空间对多模态信息的编码,缺乏通用性。
核心思路:论文的核心思路是将不确定性分解为两个来源:认知不确定性(模型假设之间的差异)和偶然不确定性(模型内部的随机性)。通过引入一个双索引框架,分别对这两种不确定性进行建模。然后,将认知不确定性与输出之间的互信息作为主动学习的优化目标,旨在选择能够最大程度减少模型认知不确定性的样本。
技术框架:论文提出的方法主要包含以下几个阶段:1) 构建一个混合密度网络(MDN)集成,每个MDN代表一个模型假设。2) 引入双索引框架,使用一个随机索引选择MDN集成中的一个模型,另一个索引控制模型内部的随机性。3) 推导输出与认知索引之间的互信息下界(MI-LB),作为主动学习的获取函数。4) 使用MI-LB选择最有价值的样本,并将其添加到训练集中,迭代训练模型。
关键创新:论文最重要的技术创新在于提出了MI-LB获取函数,它是对多模态回归问题中认知不确定性的一种有效近似。与现有方法相比,MI-LB能够更准确地捕捉模型假设之间的差异,从而选择更有信息量的样本。此外,MI-LB具有闭式解,易于计算,适用于大规模数据集。
关键设计:论文的关键设计包括:1) 使用混合密度网络(MDN)来建模多模态预测分布。MDN能够学习复杂的条件概率分布,并提供每个模态的概率密度。2) 推导互信息下界(MI-LB)时,利用了MDN的特性,将其表示为高斯混合模型的互信息下界。3) 在实验中,使用了不同的MDN结构和超参数设置,并对MI-LB的性能进行了敏感性分析。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MI-LB在多模态回归基准测试中,始终优于或匹配所有评估的基线方法。特别是在输入空间未编码多模态信息的情况下,MI-LB是唯一能够保持竞争力的算法。相比于几何和Fisher信息基线,MI-LB展现出更强的鲁棒性和泛化能力。
🎯 应用场景
该研究成果可应用于机器人导航、材料科学、气候建模等领域。在这些领域中,模型需要处理具有多模态特性的数据,并准确预测结果。通过主动学习,可以减少数据标注成本,提高模型训练效率,从而加速相关领域的研发进程。
📄 摘要(原文)
Active learning for continuous regression has lacked an acquisition function that targets epistemic uncertainty when the predictive distribution is multimodal: variance misses modal disagreement, and information-theoretic targets like BALD are designed for discrete outputs. We introduce a Two-Index framework that makes this separation explicit: one stochastic index selects among competing model hypotheses (epistemic source), while a second governs within-hypothesis randomness (aleatoric source). An entropy decomposition within the framework identifies the mutual information between the output and the epistemic index as a principled acquisition objective, and we prove this quantity vanishes as the model is trained on growing datasets, confirming that it captures exactly the uncertainty data can resolve. Because this mutual information is intractable for continuous outputs, we derive the Mutual Information Lower Bound (MI-LB) acquisition function, a closed-form approximation for Mixture Density Network ensembles. On benchmarks featuring multimodal systems, MI-LB matches or beats every baseline evaluated and is the only method to do so consistently -- geometric and Fisher-based baselines compete only when the input space already encodes the multimodality, and collapse otherwise.