CAST: Collapse-Aware multi-Scale Topology Fusion for Multimodal Coreset Selection
作者: Boran Zhao, Hetian Liu, Zhenxian Hu, Yuqing Yuan, Yu Yan, Pengju Ren
分类: cs.CV
发布日期: 2026-05-12
💡 一句话要点
提出CAST框架,通过融合多尺度拓扑结构进行多模态数据集高效子集选择。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 数据集选择 核心集选择 拓扑融合 分布匹配 扩散小波 关系覆盖
📋 核心要点
- 现有数据集选择方法忽略了多模态数据集中模态间信息的不平衡,导致另一模态的语义信息损失。
- CAST框架通过构建和融合多尺度拓扑结构,并引入多尺度分布匹配准则,来选择更具代表性的核心集。
- 实验结果表明,CAST在Flickr30K和MS-COCO数据集上优于现有方法,并在泛化能力和能源效率方面表现出色。
📝 摘要(中文)
大型多模态模型的训练依赖于海量的图文数据集,这不可避免地导致了巨大的计算开销。数据集选择提供了一种有前景的范例,通过识别一个信息量大的核心集来实现加速。然而,现有方法存在两个关键限制:(i)以单模态为主的采样方法忽略了多模态数据集中固有的细粒度跨模态信息不平衡,从而导致另一模态的语义损失;(ii)基于粗粒度样本评分的采样方法,选择的核心集容易偏向评分模型,难以保证核心集与原始数据集之间的分布等价性。同时,现有的分布匹配和离散采样策略通常无法联合考虑全局语义结构、局部细粒度细节以及密集区域中感知冗余的覆盖。为此,我们提出了CAST,一个用于多模态核心集选择的Collapse-Aware多尺度拓扑融合框架。我们首先构建图像和文本模态拓扑,并通过局部collapse-aware细化和跨模态融合导出一个统一的拓扑。然后,我们在扩散小波域中引入多尺度分布匹配准则,鼓励核心集在多个尺度上逼近原始数据集。最后,我们引入了一种局部软关系覆盖机制,将纯几何覆盖扩展到关系感知的间接覆盖,从而惩罚密集集群中的冗余选择。在Flickr30K和MS-COCO上的大量实验表明,CAST优于现有的数据集选择基线,并在跨架构泛化和能源效率方面优于最先进的多模态合成方法。
🔬 方法详解
问题定义:论文旨在解决多模态数据集选择中,现有方法忽略模态间信息不平衡以及难以保证核心集与原始数据集分布一致性的问题。现有方法容易导致语义损失,且选择的核心集易偏向评分模型,泛化能力受限。
核心思路:论文的核心思路是构建并融合图像和文本模态的多尺度拓扑结构,利用局部collapse-aware细化和跨模态融合得到统一的拓扑表示。通过在扩散小波域中进行多尺度分布匹配,并引入局部软关系覆盖机制,鼓励选择的核心集在多个尺度上逼近原始数据集,同时减少冗余选择。
技术框架:CAST框架主要包含以下几个阶段:1) 构建图像和文本模态的拓扑结构;2) 通过局部collapse-aware细化和跨模态融合,得到统一的拓扑表示;3) 在扩散小波域中进行多尺度分布匹配,优化核心集;4) 利用局部软关系覆盖机制,减少冗余选择。整体流程旨在选择一个既能代表原始数据集分布,又能减少计算开销的核心集。
关键创新:CAST的关键创新在于:1) 提出了局部collapse-aware的拓扑融合方法,更好地捕捉模态间的细粒度关系;2) 引入了多尺度分布匹配准则,保证核心集在不同尺度上逼近原始数据集;3) 提出了局部软关系覆盖机制,扩展了几何覆盖的范围,并减少了冗余选择。这些创新共同提升了核心集选择的质量和效率。
关键设计:在拓扑融合方面,论文设计了局部collapse-aware的细化策略,以减少噪声的影响。在多尺度分布匹配方面,使用了扩散小波变换,并在不同尺度上定义了损失函数,以保证核心集在不同尺度上与原始数据集的分布一致。局部软关系覆盖机制通过引入关系感知的间接覆盖,扩展了覆盖范围,并使用惩罚项来减少冗余选择。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CAST在Flickr30K和MS-COCO数据集上显著优于现有的数据集选择方法。例如,在MS-COCO数据集上,CAST在保持相同性能的情况下,可以将数据集规模减少到原来的20%,并且在跨架构泛化和能源效率方面也优于最先进的多模态合成方法。
🎯 应用场景
CAST框架可应用于各种需要处理大规模多模态数据的场景,例如多模态检索、视觉问答、图像文本生成等。通过选择更具代表性的数据集子集,可以显著降低训练成本,提高模型训练效率,并提升模型的泛化能力。该方法在资源受限的环境下具有重要的应用价值。
📄 摘要(原文)
The training of large multimodal models fundamentally relies on massive image-text datasets, which inevitably incur prohibitive computational overhead. Dataset selection offers a promising paradigm by identifying a highly informative coreset. However, existing approaches suffer from two critical limitations: (i) single-modality-dominated sampling methods, which ignore the fine-grained cross-modal information imbalance inherent in multimodal datasets and thus lead to semantic loss in the other modality; and (ii) coarse-grained sample-scoring-based sampling methods, where the selected coreset tends to be biased toward the scoring model, making it difficult to guarantee distributional equivalence between the coreset and the original dataset. Meanwhile, existing distribution matching and discrete sampling strategies often fail to jointly account for global semantic structure, local fine-grained details, and redundancy-aware coverage in dense regions. To this end, we propose CAST, a Collapse-Aware multi-Scale Topology fusion framework for multimodal coreset selection. We first construct image- and text-modality topologies, and derive a unified topology via local-collapse-aware refinement and cross-modal fusion. We then introduce a multi-scale distribution matching criterion in the diffusion wavelet domain, encouraging the coreset to approximate the original dataset at multiple scales. Finally, we introduce a local soft relational coverage mechanism that extends pure geometric coverage to relation-aware indirect coverage, penalizing redundant selections in dense clusters. Extensive experiments on Flickr30K and MS-COCO show that CAST outperforms existing dataset selection baselines, showcasing great superiority in cross-architecture generalization and energy efficiency over state-of-the-art multimodal synthesis methods.