EmergentBridge: Improving Zero-Shot Cross-Modal Transfer in Unified Multimodal Embedding Models
作者: Jincheng Xie, Xingchen Xiao, Runheng Liu, Zhongyi Huang, Yu Zheng, Heyan Huang
分类: cs.AI
发布日期: 2026-04-13
💡 一句话要点
提出EmergentBridge以解决跨模态无监督对齐问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态嵌入 零-shot学习 跨模态检索 代理对齐 梯度干扰
📋 核心要点
- 现有方法在跨模态嵌入中仅对少数模态对提供监督,导致未配对模态对的性能较差。
- 本文提出EmergentBridge,通过生成噪声桥接锚点并在正交子空间中进行代理对齐,改善未配对模态对的连接性。
- 在九个多模态数据集上,EmergentBridge在零-shot分类和检索任务中表现优异,超越了之前的基线方法。
📝 摘要(中文)
统一多模态嵌入空间在跨模态检索和零-shot识别等实际应用中至关重要。然而,在许多实际部署中,仅对少数模态对(如图像-文本)提供监督,导致未配对模态对(如音频-深度、红外-音频)连接较弱,从而在零-shot转移中表现不佳。为了解决这一稀疏配对问题,本文提出了EmergentBridge,一个嵌入级别的桥接框架,旨在改善这些未配对模态对的性能,而无需大量的成对监督。我们的关键观察是,简单地将新模态对齐到合成的代理嵌入可能会引入梯度干扰,降低现有检索/分类所依赖的锚点对齐结构。EmergentBridge通过学习映射生成噪声桥接锚点,并仅在与锚点对齐方向正交的子空间中强制代理对齐,从而解决了这一问题。实验结果表明,EmergentBridge在九个跨模态数据集上均优于现有基线,展现出强大的新兴对齐能力。
🔬 方法详解
问题定义:本文旨在解决在统一多模态嵌入模型中,未配对模态对在零-shot转移任务中的性能不足问题。现有方法通常依赖于成对监督,导致未配对模态对的连接性较弱。
核心思路:EmergentBridge的核心思路是通过生成噪声桥接锚点来改善未配对模态对的对齐,同时在正交子空间中进行代理对齐,以避免梯度干扰,保持锚点对齐结构。
技术框架:该方法包括两个主要模块:第一,学习从锚点嵌入生成噪声桥接锚点;第二,在与锚点对齐方向正交的子空间中强制进行代理对齐。
关键创新:最重要的创新点在于通过噪声桥接锚点的引入,解决了传统方法中存在的梯度干扰问题,保持了锚点对齐的同时增强了未配对模态对的连接性。
关键设计:在设计中,采用了特定的损失函数来平衡锚点对齐和代理对齐的关系,确保在训练过程中有效地学习到有用的嵌入表示。
🖼️ 关键图片
📊 实验亮点
在九个多模态数据集上的实验结果显示,EmergentBridge在零-shot分类和检索任务中均显著优于现有基线方法,具体提升幅度达到XX%(具体数据未知),展现了其强大的新兴对齐能力。
🎯 应用场景
EmergentBridge的研究成果在多个领域具有潜在应用价值,包括跨模态检索、零-shot学习和多模态数据分析等。通过改善未配对模态对的对齐能力,该方法可以推动智能搜索引擎、自动标注系统和多模态交互界面的发展,提升其在实际应用中的表现。
📄 摘要(原文)
Unified multimodal embedding spaces underpin practical applications such as cross-modal retrieval and zero-shot recognition. In many real deployments, however, supervision is available only for a small subset of modality pairs (e.g., image--text), leaving \emph{unpaired} modality pairs (e.g., audio$\leftrightarrow$depth, infrared$\leftrightarrow$audio) weakly connected and thus performing poorly on zero-shot transfer. Addressing this sparse-pairing regime is therefore essential for scaling unified embedding systems to new tasks without curating exhaustive pairwise data. We propose \textbf{EmergentBridge}, an embedding-level bridging framework that improves performance on these unpaired pairs \emph{without requiring exhaustive pairwise supervision}. Our key observation is that naively aligning a new modality to a synthesized proxy embedding can introduce \emph{gradient interference}, degrading the anchor-alignment structure that existing retrieval/classification relies on. EmergentBridge addresses this by (i) learning a mapping that produces a \emph{noisy bridge anchor} (a proxy embedding of an already-aligned modality) from an anchor embedding, and (ii) enforcing proxy alignment only in the subspace orthogonal to the anchor-alignment direction, preserving anchor alignment while strengthening non-anchor connectivity. Across nine datasets spanning multiple modalities, EmergentBridge consistently outperforms prior binding baselines on zero-shot classification and retrieval, demonstrating strong emergent alignment.