Fixed Anchors Are Not Enough: Dynamic Retrieval and Persistent Homology for Dataset Distillation
作者: Muquan Li, Hang Gou, Yingyi Ma, Rongzheng Wang, Ke Qin, Tao He
分类: cs.CV
发布日期: 2026-02-27
备注: Accepted by CVPR 2026
💡 一句话要点
提出RETA框架,通过动态检索和拓扑对齐提升数据集蒸馏的泛化能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 数据集蒸馏 解耦蒸馏 动态检索 拓扑对齐 持久同调
📋 核心要点
- 现有解耦数据集蒸馏方法依赖静态真实图像块,导致拟合复杂度差距和类内多样性降低。
- RETA框架通过动态检索连接和持久拓扑对齐,控制拟合复杂度并保持数据拓扑结构。
- 实验表明,RETA在多个数据集上显著优于现有方法,尤其在ImageNet-1K上提升显著。
📝 摘要(中文)
解耦数据集蒸馏(DD)通过匹配冻结教师网络的统计信息,将大型语料库压缩成少量合成图像。然而,当前的残差匹配流程依赖于静态的真实图像块,导致拟合复杂度差距和“拉向锚点”效应,降低了类内多样性并损害了泛化能力。为了解决这些问题,我们提出了RETA——一个用于解耦DD的检索和拓扑对齐框架。首先,动态检索连接(DRC)通过最小化教师特征空间中的拟合复杂度得分,从预构建的池中选择一个真实图像块;所选图像块通过残差连接注入,以收紧特征拟合,同时控制注入的复杂度。其次,持久拓扑对齐(PTA)使用持久同调正则化合成过程:我们构建一个互k-NN特征图,计算组件和环的持久图像,并惩罚真实和合成集之间的拓扑差异,从而减轻“拉向锚点”效应。在CIFAR-100、Tiny-ImageNet、ImageNet-1K和多个ImageNet子集上,RETA在可比的时间和内存下始终优于各种基线,特别是在ImageNet-1K上使用ResNet-18,每类50张图像时,达到了64.3%的top-1准确率,比最好的先前方法高出+3.1%。
🔬 方法详解
问题定义:现有解耦数据集蒸馏方法在进行残差匹配时,依赖于静态的真实图像块。这种做法导致两个主要问题:一是真实图像块与合成图像之间存在拟合复杂度差距,限制了合成图像的表达能力;二是容易产生“拉向锚点”效应,降低合成数据集的类内多样性,最终损害模型的泛化性能。
核心思路:RETA的核心思路是通过动态检索和拓扑对齐来解决上述问题。动态检索连接(DRC)旨在控制注入的复杂度,并选择更合适的真实图像块;持久拓扑对齐(PTA)则通过保持真实数据和合成数据之间的拓扑结构相似性,来缓解“拉向锚点”效应。这样设计的目的是在保证拟合精度的同时,提高合成数据集的多样性和泛化能力。
技术框架:RETA框架主要包含两个模块:动态检索连接(DRC)和持久拓扑对齐(PTA)。首先,DRC模块从预先构建的真实图像块池中,根据拟合复杂度得分动态选择合适的图像块,并通过残差连接将其注入到合成图像中。然后,PTA模块构建真实数据和合成数据的互k-NN特征图,计算持久同调,并惩罚两者之间的拓扑差异。整个框架通过联合优化DRC和PTA,实现高质量的数据集蒸馏。
关键创新:RETA的关键创新在于:(1) 提出了动态检索连接(DRC),它能够根据拟合复杂度自适应地选择真实图像块,从而更好地平衡拟合精度和模型复杂度;(2) 引入了持久拓扑对齐(PTA),通过保持数据拓扑结构的一致性,有效缓解了“拉向锚点”效应。与现有方法相比,RETA不再依赖静态的真实图像块,而是通过动态选择和拓扑约束,提高了合成数据集的质量和泛化能力。
关键设计:DRC模块的关键设计在于拟合复杂度得分的计算方式,它基于教师网络的特征空间,衡量了合成图像与真实图像块之间的差异。PTA模块的关键设计在于互k-NN特征图的构建和持久同调的计算,通过比较真实数据和合成数据的持久图像,可以有效地度量它们之间的拓扑差异。损失函数的设计也至关重要,它需要平衡DRC和PTA之间的权重,以实现最佳的蒸馏效果。具体参数设置(如k-NN的k值、持久同调的参数等)需要根据具体数据集进行调整。
🖼️ 关键图片
📊 实验亮点
RETA在多个数据集上取得了显著的性能提升。在ImageNet-1K数据集上,使用ResNet-18模型,每类50张图像时,RETA达到了64.3%的top-1准确率,比现有最佳方法提高了3.1%。在CIFAR-100和Tiny-ImageNet数据集上,RETA也取得了类似的性能提升,表明其具有良好的泛化能力和鲁棒性。这些实验结果充分证明了RETA框架的有效性和优越性。
🎯 应用场景
RETA框架在数据集蒸馏领域具有广泛的应用前景,可用于压缩大规模数据集,降低存储和计算成本。例如,在资源受限的边缘设备上部署深度学习模型时,可以使用RETA对数据集进行蒸馏,从而减少模型训练所需的数据量。此外,RETA还可以应用于数据隐私保护领域,通过合成具有代表性的数据集,避免直接使用原始敏感数据。
📄 摘要(原文)
Decoupled dataset distillation (DD) compresses large corpora into a few synthetic images by matching a frozen teacher's statistics. However, current residual-matching pipelines rely on static real patches, creating a fit-complexity gap and a pull-to-anchor effect that reduce intra-class diversity and hurt generalization. To address these issues, we introduce RETA -- a Retrieval and Topology Alignment framework for decoupled DD. First, Dynamic Retrieval Connection (DRC) selects a real patch from a prebuilt pool by minimizing a fit-complexity score in teacher feature space; the chosen patch is injected via a residual connection to tighten feature fit while controlling injected complexity. Second, Persistent Topology Alignment (PTA) regularizes synthesis with persistent homology: we build a mutual k-NN feature graph, compute persistence images of components and loops, and penalize topology discrepancies between real and synthetic sets, mitigating pull-to-anchor effect. Across CIFAR-100, Tiny-ImageNet, ImageNet-1K, and multiple ImageNet subsets, RETA consistently outperforms various baselines under comparable time and memory, especially reaching 64.3% top-1 accuracy on ImageNet-1K with ResNet-18 at 50 images per class, +3.1% over the best prior.