Unbiased Dynamic Multimodal Fusion

作者: Shicai Wei, Kaijie Zhang, Luyi Chen, Tao He, Guiduo Duan

分类: cs.CV

发布日期: 2026-03-20

备注: CVPR2026 Findings, 11 pages, 4 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出无偏动态多模态学习框架，解决动态场景下模态质量评估和依赖偏差问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 动态多模态学习 不确定性估计 模态依赖偏差 噪声感知 深度学习 模态质量评估

📋 核心要点

现有动态多模态融合方法依赖经验指标，在极端噪声下模态质量评估不准确。
UDML框架通过噪声感知不确定性估计器，学习特征损坏与噪声水平的对应关系，提升模态质量评估的准确性。
UDML量化模态依赖偏差并融入加权机制，避免对难学习模态的双重抑制，提升融合性能。

📝 摘要（中文）

传统多模态方法通常假设模态质量是静态的，这限制了它们在动态真实场景中的适应性。因此，动态多模态方法被提出以评估模态质量并相应地调整它们的贡献。然而，它们通常依赖于经验指标，无法在噪声水平极低或极高时测量模态质量。此外，现有方法通常假设每个模态的初始贡献是相同的，忽略了内在的模态依赖偏差。因此，难以学习的模态将受到双重惩罚，并且动态融合的性能可能不如静态融合。为了解决这些挑战，我们提出了无偏动态多模态学习（UDML）框架。具体来说，我们引入了一种噪声感知不确定性估计器，它将受控噪声添加到模态数据中，并从模态特征预测其强度。这迫使模型学习特征损坏和噪声水平之间的清晰对应关系，从而可以在低噪声和高噪声条件下进行准确的不确定性测量。此外，我们通过模态dropout量化多模态网络中固有的模态依赖偏差，并将其纳入加权机制。这消除了对难以学习的模态的双重抑制效应。在各种多模态基准任务上的大量实验验证了所提出的UDML的有效性、通用性和泛化性。

🔬 方法详解

问题定义：传统动态多模态融合方法在动态场景中面临两个主要问题：一是依赖经验指标评估模态质量，导致在噪声极低或极高时评估不准确；二是忽略了模态间的内在依赖偏差，对难以学习的模态进行双重惩罚，使得动态融合效果甚至不如静态融合。

核心思路：UDML的核心思路是解决模态质量评估的准确性和模态依赖偏差问题。通过引入噪声感知不确定性估计器，使模型学习特征损坏与噪声水平的对应关系，从而准确评估模态质量。同时，通过量化模态依赖偏差并将其融入加权机制，避免对难学习模态的过度抑制。

技术框架：UDML框架主要包含两个核心模块：噪声感知不确定性估计器和模态依赖偏差量化模块。首先，噪声感知不确定性估计器通过向模态数据添加受控噪声，并预测噪声强度，从而学习模态特征与噪声水平的对应关系。然后，模态依赖偏差量化模块通过模态dropout来量化模态间的依赖关系，并将该偏差信息融入到模态融合的加权机制中。最终，融合后的特征用于下游任务。

关键创新：UDML的关键创新在于：1) 提出了噪声感知不确定性估计器，能够准确评估各种噪声水平下的模态质量；2) 提出了模态依赖偏差量化方法，能够有效避免对难学习模态的过度抑制，从而提升整体融合性能。与现有方法相比，UDML不再依赖经验指标，而是通过学习数据本身的特性来评估模态质量，并考虑了模态间的依赖关系。

关键设计：噪声感知不确定性估计器通过一个神经网络来实现，该网络以模态特征作为输入，预测添加的噪声强度。损失函数的设计目标是使预测的噪声强度与实际添加的噪声强度尽可能接近。模态依赖偏差量化模块通过模态dropout来实现，dropout的概率反映了模态的重要性。加权机制根据模态的不确定性和依赖偏差来动态调整模态的权重。

🖼️ 关键图片

📊 实验亮点

在多个多模态基准数据集上的实验结果表明，UDML框架显著优于现有的动态和静态多模态融合方法。具体来说，UDML在各种噪声水平下均能保持较高的性能，并且能够有效提升难学习模态的贡献，从而获得更好的整体融合效果。实验结果验证了UDML的有效性、通用性和泛化性。

🎯 应用场景

UDML框架可应用于各种动态多模态融合场景，例如：自动驾驶（融合视觉、激光雷达等传感器数据）、机器人感知（融合视觉、触觉、听觉等信息）、医疗诊断（融合影像、文本、生理信号等数据）等。该研究有助于提升多模态系统在复杂环境下的鲁棒性和准确性，具有重要的实际应用价值。

📄 摘要（原文）

Traditional multimodal methods often assume static modality quality, which limits their adaptability in dynamic real-world scenarios. Thus, dynamical multimodal methods are proposed to assess modality quality and adjust their contribution accordingly. However, they typically rely on empirical metrics, failing to measure the modality quality when noise levels are extremely low or high. Moreover, existing methods usually assume that the initial contribution of each modality is the same, neglecting the intrinsic modality dependency bias. As a result, the modality hard to learn would be doubly penalized, and the performance of dynamical fusion could be inferior to that of static fusion. To address these challenges, we propose the Unbiased Dynamic Multimodal Learning (UDML) framework. Specifically, we introduce a noise-aware uncertainty estimator that adds controlled noise to the modality data and predicts its intensity from the modality feature. This forces the model to learn a clear correspondence between feature corruption and noise level, allowing accurate uncertainty measure across both low- and high-noise conditions. Furthermore, we quantify the inherent modality reliance bias within multimodal networks via modality dropout and incorporate it into the weighting mechanism. This eliminates the dual suppression effect on the hard-to-learn modality. Extensive experiments across diverse multimodal benchmark tasks validate the effectiveness, versatility, and generalizability of the proposed UDML. The code is available at https://github.com/shicaiwei123/UDML.

Unbiased Dynamic Multimodal Fusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理