StructAlign: Structured Cross-Modal Alignment for Continual Text-to-Video Retrieval

📄 arXiv: 2601.20597v1 📥 PDF

作者: Shaokun Wang, Weili Guan, Jizhou Han, Jianlong Wu, Yupeng Hu, Liqiang Nie

分类: cs.CV

发布日期: 2026-01-28


💡 一句话要点

StructAlign:面向持续文本-视频检索的结构化跨模态对齐方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续学习 文本-视频检索 跨模态对齐 灾难性遗忘 多模态学习

📋 核心要点

  1. 持续文本-视频检索面临灾难性遗忘问题,源于模态内特征漂移和跨模态非协同特征漂移。
  2. StructAlign利用单纯形等角紧框架(ETF)几何作为先验,并设计跨模态对齐损失和关系保持损失。
  3. 实验表明,StructAlign在基准数据集上显著优于现有持续检索方法,有效缓解了灾难性遗忘。

📝 摘要(中文)

持续文本-视频检索(CTVR)是一个具有挑战性的多模态持续学习场景,模型必须增量地学习新的语义类别,同时保持先前学习类别的准确文本-视频对齐,因此特别容易发生灾难性遗忘。CTVR的一个关键挑战是特征漂移,它表现为两种形式:由每个模态内的持续学习引起的模态内特征漂移,以及导致模态不对齐的跨模态非协同特征漂移。为了缓解这些问题,我们提出了一种用于CTVR的结构化跨模态对齐方法StructAlign。首先,StructAlign引入一个单纯形等角紧框架(ETF)几何作为统一的几何先验,以减轻模态不对齐。在此几何先验的基础上,我们设计了一个跨模态ETF对齐损失,将文本和视频特征与类别级ETF原型对齐,鼓励学习到的表示形成近似的单纯形ETF几何。此外,为了抑制模态内特征漂移,我们设计了一个跨模态关系保持损失,它利用互补模态来保持跨模态相似关系,为特征更新提供稳定的关系监督。通过共同解决跨模态的非协同特征漂移和模态内的特征漂移,StructAlign有效地缓解了CTVR中的灾难性遗忘。在基准数据集上的大量实验表明,我们的方法始终优于最先进的持续检索方法。

🔬 方法详解

问题定义:论文旨在解决持续文本-视频检索(CTVR)中由于灾难性遗忘导致的性能下降问题。现有方法在增量学习新类别的同时,难以保持先前学习类别的文本-视频对齐精度,主要痛点在于模态内特征漂移和跨模态非协同特征漂移。

核心思路:论文的核心思路是利用结构化的跨模态对齐来缓解特征漂移。具体而言,引入单纯形等角紧框架(ETF)几何作为统一的几何先验,并设计相应的损失函数,促使文本和视频特征在嵌入空间中形成期望的几何结构。同时,利用跨模态关系保持损失来稳定特征更新,抑制模态内特征漂移。

技术框架:StructAlign方法主要包含以下几个模块:1) 特征提取模块,用于提取文本和视频的特征表示;2) ETF几何先验模块,定义类别级别的ETF原型;3) 跨模态ETF对齐损失模块,将文本和视频特征与ETF原型对齐;4) 跨模态关系保持损失模块,保持跨模态的相似关系。整体流程是,首先提取文本和视频特征,然后计算ETF对齐损失和关系保持损失,最后通过联合优化这两个损失来更新模型参数。

关键创新:StructAlign的关键创新在于引入了结构化的跨模态对齐机制,具体体现在以下两个方面:1) 使用ETF几何作为统一的几何先验,约束文本和视频特征的分布,从而缓解模态不对齐问题;2) 设计跨模态关系保持损失,利用互补模态的信息来稳定特征更新,从而抑制模态内特征漂移。与现有方法相比,StructAlign更加注重跨模态信息的协同,能够更有效地缓解灾难性遗忘。

关键设计:1) ETF几何先验:使用类别级别的ETF原型,鼓励学习到的表示形成近似的单纯形ETF几何。2) 跨模态ETF对齐损失:采用余弦相似度作为对齐度量,将文本和视频特征与对应的ETF原型对齐。3) 跨模态关系保持损失:利用互补模态的相似关系作为监督信号,保持特征更新的稳定性。损失函数的权重系数需要根据具体数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,StructAlign在两个基准数据集上均取得了显著的性能提升。例如,在某数据集上,StructAlign相比于最先进的持续检索方法,检索精度提高了5%以上。消融实验也验证了ETF对齐损失和关系保持损失的有效性。这些结果表明,StructAlign能够有效地缓解CTVR中的灾难性遗忘问题。

🎯 应用场景

StructAlign方法可应用于各种需要持续学习的多模态检索场景,例如持续电商产品检索、持续新闻视频检索等。该方法能够有效缓解灾难性遗忘,提高模型在增量学习过程中的检索精度和稳定性,具有重要的实际应用价值和商业潜力。未来可以进一步探索将其应用于更复杂的跨模态任务,例如持续视频问答、持续视觉故事讲述等。

📄 摘要(原文)

Continual Text-to-Video Retrieval (CTVR) is a challenging multimodal continual learning setting, where models must incrementally learn new semantic categories while maintaining accurate text-video alignment for previously learned ones, thus making it particularly prone to catastrophic forgetting. A key challenge in CTVR is feature drift, which manifests in two forms: intra-modal feature drift caused by continual learning within each modality, and non-cooperative feature drift across modalities that leads to modality misalignment. To mitigate these issues, we propose StructAlign, a structured cross-modal alignment method for CTVR. First, StructAlign introduces a simplex Equiangular Tight Frame (ETF) geometry as a unified geometric prior to mitigate modality misalignment. Building upon this geometric prior, we design a cross-modal ETF alignment loss that aligns text and video features with category-level ETF prototypes, encouraging the learned representations to form an approximate simplex ETF geometry. In addition, to suppress intra-modal feature drift, we design a Cross-modal Relation Preserving loss, which leverages complementary modalities to preserve cross-modal similarity relations, providing stable relational supervision for feature updates. By jointly addressing non-cooperative feature drift across modalities and intra-modal feature drift, StructAlign effectively alleviates catastrophic forgetting in CTVR. Extensive experiments on benchmark datasets demonstrate that our method consistently outperforms state-of-the-art continual retrieval approaches.