Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization
作者: Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin
分类: cs.LG, cs.AI
发布日期: 2026-04-17
💡 一句话要点
提出HILBERT框架,解决低资源场景下长序列音视频文档表示学习问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 对比学习 长序列建模 音频文本融合 低资源学习
📋 核心要点
- 现有方法在低资源场景下,难以有效对齐长序列音视频文档中的音频和文本模态。
- HILBERT通过互惠对偶对比学习,同时对齐音频-联合表示和文本-联合表示,避免直接对比。
- 实验表明,HILBERT在不平衡多分类任务中表现优异,学习到语义丰富的长序列表示。
📝 摘要(中文)
本文提出HILBERT(HIerarchical Long-sequence Balanced Embedding with Reciprocal contrastive Training),一个跨模态注意力框架,用于在低资源数据环境下学习长序列分割文档的音频-文本表示。HILBERT利用预训练的语音和语言编码器提取片段级特征,通过跨模态注意力和自注意力池化聚合这些特征,形成特定模态的文档表示和一个联合跨模态嵌入。为了在严重的音频-文本维度不平衡下对齐模态并保持模态特定结构,本文引入了一种互惠对偶对比目标,同时对齐音频到联合表示和文本到联合表示,而不是直接对比音频和文本。两个辅助正则化器进一步稳定长序列融合:一个中心核对齐(CKA)损失,保持每个模态和联合嵌入之间的结构一致性;一个互信息平衡损失,通过平衡音频和文本到联合空间的信息流来防止单一模态的支配。对于下游预测,HILBERT采用混合专家(MoE)分类器,对连接的音频、文本和联合表示进行分类,以适应异构标签体系。在多个音频-文本骨干组合上的广泛评估表明,HILBERT学习了语义上有意义的长序列表示,并在高度不平衡的多类设置中实现了卓越的性能。
🔬 方法详解
问题定义:论文旨在解决低资源场景下,如何有效学习长序列音视频文档的联合表示的问题。现有方法在处理长序列时,难以捕捉模态间的细粒度关联,并且在音频和文本维度不平衡的情况下,容易导致表示学习偏向于某一模态。此外,直接对比音频和文本可能无法充分利用模态间的互补信息。
核心思路:论文的核心思路是采用互惠对偶对比学习,将音频和文本分别与一个联合嵌入空间对齐。通过同时优化音频到联合表示和文本到联合表示的对比损失,可以更有效地利用模态间的互补信息,并缓解维度不平衡带来的问题。此外,论文还引入了结构保持和信息平衡的正则化项,以进一步提升表示学习的稳定性和效果。
技术框架:HILBERT框架主要包含以下几个模块:1) 特征提取:使用预训练的语音和语言编码器提取片段级别的音频和文本特征。2) 跨模态注意力:利用跨模态注意力机制,将音频和文本特征进行融合,生成模态特定的文档表示。3) 自注意力池化:使用自注意力池化层,对模态特定的文档表示进行聚合,得到最终的音频和文本表示。4) 对偶对比学习:通过互惠对偶对比损失,将音频和文本表示与联合嵌入空间对齐。5) 正则化:引入中心核对齐(CKA)损失和互信息平衡损失,以保持结构一致性和信息平衡。6) 混合专家分类器:使用混合专家分类器,对连接的音频、文本和联合表示进行下游预测。
关键创新:论文的关键创新在于提出了互惠对偶对比学习方法,以及结构保持和信息平衡的正则化策略。互惠对偶对比学习能够更有效地利用模态间的互补信息,缓解维度不平衡问题。结构保持正则化能够保持模态特定结构,避免信息损失。信息平衡正则化能够防止单一模态的支配,保证信息流的均衡。
关键设计:论文的关键设计包括:1) 互惠对偶对比损失:同时优化音频到联合表示和文本到联合表示的对比损失,采用InfoNCE损失函数。2) 中心核对齐(CKA)损失:计算每个模态和联合嵌入之间的CKA相似度,并最小化其负值。3) 互信息平衡损失:通过最小化音频和文本信息流之间的差异,实现信息平衡。4) 混合专家(MoE)分类器:使用多个专家网络,每个专家网络负责处理特定类型的样本,并通过门控网络进行加权组合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HILBERT在多个音频-文本数据集上取得了显著的性能提升。例如,在高度不平衡的多分类任务中,HILBERT的性能优于现有方法,证明了其在低资源场景下学习长序列表示的有效性。具体性能提升数据在论文中有详细展示。
🎯 应用场景
该研究成果可应用于多模态文档理解、音视频内容分析、智能客服等领域。例如,可以用于分析在线教育视频,提取关键信息并进行自动摘要;也可以用于分析会议录音,识别发言者并进行内容分类。该研究有助于提升机器对多模态信息的理解能力,具有重要的实际应用价值和广阔的发展前景。
📄 摘要(原文)
We propose HILBERT (HIerarchical Long-sequence Balanced Embedding with Reciprocal contrastive Training), a cross-attentive multimodal framework for learning document-level audio-text representations from long, segmented sequences in low-resource data settings. HILBERT leverages frozen pre-trained speech and language encoders to extract segment-level features, which are aggregated via cross-modal attention and self-attentive pooling to form modality-specific document representations and a joint cross-attentive embedding. To align modalities while preserving modality-specific structure under severe audio-text dimensional imbalance, we introduce a reciprocal dual contrastive objective that simultaneously aligns audio-to-joint and text-to-joint representations, rather than directly contrasting audio and text alone. Two auxiliary regularizers further stabilize long-sequence fusion: a Centered Kernel Alignment (CKA) loss that preserves structural consistency between each modality and the joint embedding, and a mutual information balancing loss that prevents dominance of a single modality by equalizing information flow from audio and text into the joint space. For downstream prediction, HILBERT employs a Mixture-of-Experts (MoE) classifier over concatenated audio, text, and joint representations to accommodate heterogeneous label regimes. Extensive evaluation across multiple audio-text backbone combinations demonstrates that HILBERT learns semantically meaningful long-sequence representations and achieves superior performance on highly imbalanced multi-class settings.