Geometry-based Schrödinger Bridges for Trustworthy Multimodal Fusion

📄 arXiv: 2605.31193v1 📥 PDF

作者: Jiayu Xiong, Jing Wang, Qi Zhang, Wanlong Wang, Jun Xue

分类: cs.LG

发布日期: 2026-05-29

备注: ICML 2026 accepted paper


💡 一句话要点

提出基于几何的Schrödinger桥多模态融合方法,提升系统在低质量数据下的鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 可信AI 鲁棒性 Schrödinger桥 扩散模型 几何学习 低质量数据

📋 核心要点

  1. 现有可信多模态融合方法依赖模型自身预测置信度评估数据质量,存在循环依赖问题,在模型错误时失效。
  2. 提出基于几何的多模态融合(GMF),通过测量潜在空间中数据传输校正量评估可靠性,避免依赖模型预测。
  3. 实验表明,GMF在严重传感器噪声和语义冲突下,显著提升了多模态系统的鲁棒性,优于现有方法。

📝 摘要(中文)

现实世界的多模态系统必须对低质量数据具有鲁棒性,例如传感器噪声、不完整的多模态数据和冲突的输入。然而,现有的可信融合方法依赖于模型自身的预测置信度来判断数据质量,这造成了一种循环依赖:当模型自信但错误时,这些方法无法检测到错误。为了打破这个循环,我们提出了基于几何的多模态融合(GMF)。GMF不依赖于预测,而是通过测量输入在潜在空间中需要的传输校正量来评估可靠性。我们使用带有修正流的扩散Schrödinger桥传输来实现,其中初始速度的平方给出了一个有效的学习校正分数。有效数据的平方速度幅度较低,而噪声、不完整数据或冲突数据需要更强的传输校正。这种基于几何的可靠性信号作为一个独立的判断,即使在分类器被愚弄时也能有效地标记不可靠的输入。大量的实验表明,与基于置信度的基线相比,GMF显著提高了对严重传感器噪声和语义冲突的鲁棒性。

🔬 方法详解

问题定义:现有的多模态融合方法在处理低质量数据(如噪声、不完整或冲突数据)时,依赖模型自身的预测置信度来判断数据质量。这种方法存在固有的缺陷,即当模型做出错误但自信的预测时,无法有效识别并处理这些不可靠的输入,导致系统整体性能下降。因此,需要一种不依赖于模型预测的、独立的数据质量评估机制。

核心思路:论文的核心思路是利用数据在潜在空间中的几何特性来评估其可靠性。具体来说,通过测量将输入数据传输到“干净”数据分布所需的校正量来判断数据的质量。高质量的数据需要的校正量较小,而低质量的数据则需要较大的校正。这种方法避免了直接依赖模型预测,从而打破了循环依赖。

技术框架:GMF采用Diffusion Schrödinger Bridge(DSB)框架,并结合Rectified Flow来实现数据的传输和校正。整体流程如下:1) 将多模态输入编码到潜在空间;2) 利用DSB学习一个从噪声分布到数据分布的传输映射;3) 通过计算初始速度的平方幅度来获得一个校正分数,该分数反映了数据需要校正的程度;4) 使用该校正分数作为可靠性指标,用于后续的融合决策。

关键创新:该方法最重要的创新在于使用基于几何的可靠性评估信号,而不是依赖于模型自身的预测置信度。通过测量潜在空间中的传输校正量,GMF能够独立地判断输入数据的质量,从而有效地识别并处理不可靠的输入,即使在分类器被“愚弄”的情况下也能正常工作。

关键设计:论文使用Rectified Flow来简化DSB的计算,通过计算初始速度的平方幅度来高效地估计校正分数。损失函数的设计旨在学习一个有效的传输映射,使得高质量的数据具有较小的校正分数,而低质量的数据具有较大的校正分数。具体的网络结构和参数设置根据具体的应用场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GMF在存在严重传感器噪声和语义冲突的情况下,显著优于基于置信度的基线方法。例如,在特定噪声水平下,GMF的分类准确率比基线方法提高了10%以上。此外,GMF在处理不完整数据方面也表现出更强的鲁棒性,证明了其在实际应用中的潜力。

🎯 应用场景

该研究成果可应用于各种需要处理低质量多模态数据的场景,例如自动驾驶(传感器噪声)、医疗诊断(不完整数据)、人机交互(冲突指令)等。通过提高系统对噪声和冲突数据的鲁棒性,可以提升系统的可靠性和安全性,具有重要的实际应用价值和潜在的商业前景。

📄 摘要(原文)

Real-world multimodal systems must be robust against low-quality data, such as sensor noise, incomplete multimodal data and conflicting inputs. However, existing trustworthy fusion methods rely on the model's own prediction confidence to judge data quality. This creates a circular dependency: when a model is confident but wrong, these methods fail to detect the error. To break this loop, we propose Geometry-based Multimodal Fusion (GMF). Instead of relying on predictions, we evaluate reliability by measuring how much transport correction the input needs in latent space. We implement Diffusion Schrödinger Bridge transport with Rectified Flow, where the squared initial velocity gives an efficient learned correction score. Valid data has low squared velocity magnitude, while noisy, incomplete data or conflicting data requires stronger transport correction. This geometry-based reliability signal acts as an independent judge, effectively flagging unreliable inputs even when the classifier is fooled. Extensive experiments demonstrate that GMF significantly improves robustness against severe sensor noise and semantic conflicts compared to confidence-based baselines.