Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization

作者: Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin

分类: cs.LG, cs.AI

发布日期: 2026-04-17

💡 一句话要点

提出HILBERT框架，解决低资源场景下长序列音视频文档表示学习问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 对比学习 长序列建模 音频文本融合 低资源学习

📋 核心要点

现有方法在低资源场景下，难以有效对齐长序列音视频文档中的音频和文本模态。
HILBERT通过互惠对偶对比学习，同时对齐音频-联合表示和文本-联合表示，避免直接对比。
实验表明，HILBERT在不平衡多分类任务中表现优异，学习到语义丰富的长序列表示。

📝 摘要（中文）

本文提出HILBERT（HIerarchical Long-sequence Balanced Embedding with Reciprocal contrastive Training），一个跨模态注意力框架，用于在低资源数据环境下学习长序列分割文档的音频-文本表示。HILBERT利用预训练的语音和语言编码器提取片段级特征，通过跨模态注意力和自注意力池化聚合这些特征，形成特定模态的文档表示和一个联合跨模态嵌入。为了在严重的音频-文本维度不平衡下对齐模态并保持模态特定结构，本文引入了一种互惠对偶对比目标，同时对齐音频到联合表示和文本到联合表示，而不是直接对比音频和文本。两个辅助正则化器进一步稳定长序列融合：一个中心核对齐（CKA）损失，保持每个模态和联合嵌入之间的结构一致性；一个互信息平衡损失，通过平衡音频和文本到联合空间的信息流来防止单一模态的支配。对于下游预测，HILBERT采用混合专家（MoE）分类器，对连接的音频、文本和联合表示进行分类，以适应异构标签体系。在多个音频-文本骨干组合上的广泛评估表明，HILBERT学习了语义上有意义的长序列表示，并在高度不平衡的多类设置中实现了卓越的性能。

🔬 方法详解

问题定义：论文旨在解决低资源场景下，如何有效学习长序列音视频文档的联合表示的问题。现有方法在处理长序列时，难以捕捉模态间的细粒度关联，并且在音频和文本维度不平衡的情况下，容易导致表示学习偏向于某一模态。此外，直接对比音频和文本可能无法充分利用模态间的互补信息。

核心思路：论文的核心思路是采用互惠对偶对比学习，将音频和文本分别与一个联合嵌入空间对齐。通过同时优化音频到联合表示和文本到联合表示的对比损失，可以更有效地利用模态间的互补信息，并缓解维度不平衡带来的问题。此外，论文还引入了结构保持和信息平衡的正则化项，以进一步提升表示学习的稳定性和效果。

技术框架：HILBERT框架主要包含以下几个模块：1) 特征提取：使用预训练的语音和语言编码器提取片段级别的音频和文本特征。2) 跨模态注意力：利用跨模态注意力机制，将音频和文本特征进行融合，生成模态特定的文档表示。3) 自注意力池化：使用自注意力池化层，对模态特定的文档表示进行聚合，得到最终的音频和文本表示。4) 对偶对比学习：通过互惠对偶对比损失，将音频和文本表示与联合嵌入空间对齐。5) 正则化：引入中心核对齐（CKA）损失和互信息平衡损失，以保持结构一致性和信息平衡。6) 混合专家分类器：使用混合专家分类器，对连接的音频、文本和联合表示进行下游预测。

关键创新：论文的关键创新在于提出了互惠对偶对比学习方法，以及结构保持和信息平衡的正则化策略。互惠对偶对比学习能够更有效地利用模态间的互补信息，缓解维度不平衡问题。结构保持正则化能够保持模态特定结构，避免信息损失。信息平衡正则化能够防止单一模态的支配，保证信息流的均衡。

关键设计：论文的关键设计包括：1) 互惠对偶对比损失：同时优化音频到联合表示和文本到联合表示的对比损失，采用InfoNCE损失函数。2) 中心核对齐（CKA）损失：计算每个模态和联合嵌入之间的CKA相似度，并最小化其负值。3) 互信息平衡损失：通过最小化音频和文本信息流之间的差异，实现信息平衡。4) 混合专家（MoE）分类器：使用多个专家网络，每个专家网络负责处理特定类型的样本，并通过门控网络进行加权组合。

🖼️ 关键图片

📊 实验亮点

实验结果表明，HILBERT在多个音频-文本数据集上取得了显著的性能提升。例如，在高度不平衡的多分类任务中，HILBERT的性能优于现有方法，证明了其在低资源场景下学习长序列表示的有效性。具体性能提升数据在论文中有详细展示。

🎯 应用场景

该研究成果可应用于多模态文档理解、音视频内容分析、智能客服等领域。例如，可以用于分析在线教育视频，提取关键信息并进行自动摘要；也可以用于分析会议录音，识别发言者并进行内容分类。该研究有助于提升机器对多模态信息的理解能力，具有重要的实际应用价值和广阔的发展前景。

📄 摘要（原文）

We propose HILBERT (HIerarchical Long-sequence Balanced Embedding with Reciprocal contrastive Training), a cross-attentive multimodal framework for learning document-level audio-text representations from long, segmented sequences in low-resource data settings. HILBERT leverages frozen pre-trained speech and language encoders to extract segment-level features, which are aggregated via cross-modal attention and self-attentive pooling to form modality-specific document representations and a joint cross-attentive embedding. To align modalities while preserving modality-specific structure under severe audio-text dimensional imbalance, we introduce a reciprocal dual contrastive objective that simultaneously aligns audio-to-joint and text-to-joint representations, rather than directly contrasting audio and text alone. Two auxiliary regularizers further stabilize long-sequence fusion: a Centered Kernel Alignment (CKA) loss that preserves structural consistency between each modality and the joint embedding, and a mutual information balancing loss that prevents dominance of a single modality by equalizing information flow from audio and text into the joint space. For downstream prediction, HILBERT employs a Mixture-of-Experts (MoE) classifier over concatenated audio, text, and joint representations to accommodate heterogeneous label regimes. Extensive evaluation across multiple audio-text backbone combinations demonstrates that HILBERT learns semantically meaningful long-sequence representations and achieves superior performance on highly imbalanced multi-class settings.

Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理