Fixed Anchors Are Not Enough: Dynamic Retrieval and Persistent Homology for Dataset Distillation

作者: Muquan Li, Hang Gou, Yingyi Ma, Rongzheng Wang, Ke Qin, Tao He

分类: cs.CV

发布日期: 2026-02-27

备注: Accepted by CVPR 2026

💡 一句话要点

提出RETA框架，通过动态检索和拓扑对齐提升数据集蒸馏的泛化能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 解耦蒸馏 动态检索 拓扑对齐 持久同调

📋 核心要点

现有解耦数据集蒸馏方法依赖静态真实图像块，导致拟合复杂度差距和类内多样性降低。
RETA框架通过动态检索连接和持久拓扑对齐，控制拟合复杂度并保持数据拓扑结构。
实验表明，RETA在多个数据集上显著优于现有方法，尤其在ImageNet-1K上提升显著。

📝 摘要（中文）

解耦数据集蒸馏(DD)通过匹配冻结教师网络的统计信息，将大型语料库压缩成少量合成图像。然而，当前的残差匹配流程依赖于静态的真实图像块，导致拟合复杂度差距和“拉向锚点”效应，降低了类内多样性并损害了泛化能力。为了解决这些问题，我们提出了RETA——一个用于解耦DD的检索和拓扑对齐框架。首先，动态检索连接(DRC)通过最小化教师特征空间中的拟合复杂度得分，从预构建的池中选择一个真实图像块；所选图像块通过残差连接注入，以收紧特征拟合，同时控制注入的复杂度。其次，持久拓扑对齐(PTA)使用持久同调正则化合成过程：我们构建一个互k-NN特征图，计算组件和环的持久图像，并惩罚真实和合成集之间的拓扑差异，从而减轻“拉向锚点”效应。在CIFAR-100、Tiny-ImageNet、ImageNet-1K和多个ImageNet子集上，RETA在可比的时间和内存下始终优于各种基线，特别是在ImageNet-1K上使用ResNet-18，每类50张图像时，达到了64.3%的top-1准确率，比最好的先前方法高出+3.1%。

🔬 方法详解

问题定义：现有解耦数据集蒸馏方法在进行残差匹配时，依赖于静态的真实图像块。这种做法导致两个主要问题：一是真实图像块与合成图像之间存在拟合复杂度差距，限制了合成图像的表达能力；二是容易产生“拉向锚点”效应，降低合成数据集的类内多样性，最终损害模型的泛化性能。

核心思路：RETA的核心思路是通过动态检索和拓扑对齐来解决上述问题。动态检索连接(DRC)旨在控制注入的复杂度，并选择更合适的真实图像块；持久拓扑对齐(PTA)则通过保持真实数据和合成数据之间的拓扑结构相似性，来缓解“拉向锚点”效应。这样设计的目的是在保证拟合精度的同时，提高合成数据集的多样性和泛化能力。

技术框架：RETA框架主要包含两个模块：动态检索连接(DRC)和持久拓扑对齐(PTA)。首先，DRC模块从预先构建的真实图像块池中，根据拟合复杂度得分动态选择合适的图像块，并通过残差连接将其注入到合成图像中。然后，PTA模块构建真实数据和合成数据的互k-NN特征图，计算持久同调，并惩罚两者之间的拓扑差异。整个框架通过联合优化DRC和PTA，实现高质量的数据集蒸馏。

关键创新：RETA的关键创新在于：(1) 提出了动态检索连接(DRC)，它能够根据拟合复杂度自适应地选择真实图像块，从而更好地平衡拟合精度和模型复杂度；(2) 引入了持久拓扑对齐(PTA)，通过保持数据拓扑结构的一致性，有效缓解了“拉向锚点”效应。与现有方法相比，RETA不再依赖静态的真实图像块，而是通过动态选择和拓扑约束，提高了合成数据集的质量和泛化能力。

关键设计：DRC模块的关键设计在于拟合复杂度得分的计算方式，它基于教师网络的特征空间，衡量了合成图像与真实图像块之间的差异。PTA模块的关键设计在于互k-NN特征图的构建和持久同调的计算，通过比较真实数据和合成数据的持久图像，可以有效地度量它们之间的拓扑差异。损失函数的设计也至关重要，它需要平衡DRC和PTA之间的权重，以实现最佳的蒸馏效果。具体参数设置（如k-NN的k值、持久同调的参数等）需要根据具体数据集进行调整。

🖼️ 关键图片

📊 实验亮点

RETA在多个数据集上取得了显著的性能提升。在ImageNet-1K数据集上，使用ResNet-18模型，每类50张图像时，RETA达到了64.3%的top-1准确率，比现有最佳方法提高了3.1%。在CIFAR-100和Tiny-ImageNet数据集上，RETA也取得了类似的性能提升，表明其具有良好的泛化能力和鲁棒性。这些实验结果充分证明了RETA框架的有效性和优越性。

🎯 应用场景

RETA框架在数据集蒸馏领域具有广泛的应用前景，可用于压缩大规模数据集，降低存储和计算成本。例如，在资源受限的边缘设备上部署深度学习模型时，可以使用RETA对数据集进行蒸馏，从而减少模型训练所需的数据量。此外，RETA还可以应用于数据隐私保护领域，通过合成具有代表性的数据集，避免直接使用原始敏感数据。

📄 摘要（原文）

Decoupled dataset distillation (DD) compresses large corpora into a few synthetic images by matching a frozen teacher's statistics. However, current residual-matching pipelines rely on static real patches, creating a fit-complexity gap and a pull-to-anchor effect that reduce intra-class diversity and hurt generalization. To address these issues, we introduce RETA -- a Retrieval and Topology Alignment framework for decoupled DD. First, Dynamic Retrieval Connection (DRC) selects a real patch from a prebuilt pool by minimizing a fit-complexity score in teacher feature space; the chosen patch is injected via a residual connection to tighten feature fit while controlling injected complexity. Second, Persistent Topology Alignment (PTA) regularizes synthesis with persistent homology: we build a mutual k-NN feature graph, compute persistence images of components and loops, and penalize topology discrepancies between real and synthetic sets, mitigating pull-to-anchor effect. Across CIFAR-100, Tiny-ImageNet, ImageNet-1K, and multiple ImageNet subsets, RETA consistently outperforms various baselines under comparable time and memory, especially reaching 64.3% top-1 accuracy on ImageNet-1K with ResNet-18 at 50 images per class, +3.1% over the best prior.

Fixed Anchors Are Not Enough: Dynamic Retrieval and Persistent Homology for Dataset Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理