Everything to the Synthetic: Diffusion-driven Test-time Adaptation via Synthetic-Domain Alignment
作者: Jiayi Guo, Junhao Zhao, Chaoqun Du, Yulin Wang, Chunjiang Ge, Zanlin Ni, Shiji Song, Humphrey Shi, Gao Huang
分类: cs.CV
发布日期: 2024-06-06 (更新: 2024-12-15)
备注: GitHub: https://github.com/SHI-Labs/Diffusion-Driven-Test-Time-Adaptation-via-Synthetic-Domain-Alignment
🔗 代码/项目: GITHUB
💡 一句话要点
提出SDA框架,通过合成域对齐提升扩散驱动的测试时自适应性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 测试时自适应 扩散模型 合成域对齐 领域泛化 深度学习
📋 核心要点
- 现有测试时自适应方法依赖目标数据调整模型权重,对数据量和顺序敏感,且扩散驱动方法生成的合成数据与源数据存在不对齐问题。
- 提出合成域对齐(SDA)框架,通过合成数据微调源模型,确保合成域与源域更好地对齐,从而提升模型在目标域的泛化能力。
- 实验结果表明,SDA在分类、分割和多模态大型语言模型等任务上,均优于现有的扩散驱动的测试时自适应方法。
📝 摘要(中文)
测试时自适应(TTA)旨在提高源域预训练模型在未见过的、分布偏移的目标域上的性能。传统的TTA方法主要基于目标数据流调整模型权重,导致模型性能对目标数据的数量和顺序敏感。最近提出的扩散驱动的TTA方法通过调整模型输入而非权重来缓解这个问题,它使用在源域上训练的无条件扩散模型将目标域数据转换为一个合成域,期望该合成域近似于源域。然而,本文揭示了扩散驱动的TTA中,尽管合成数据在视觉上与源数据难以区分,但对于深度网络而言,它与源数据是不对齐的,甚至差异显著。为了解决这个问题,我们提出了一个合成域对齐(SDA)框架。我们的核心思想是用合成数据微调源模型,以确保更好的对齐。具体来说,我们首先使用条件扩散模型生成带标签的样本,创建一个合成数据集。随后,我们使用上述无条件扩散模型对每个样本进行加噪和去噪,然后再进行微调。这种混合扩散(MoD)过程缓解了条件模型和无条件模型之间潜在的域不对齐问题。在分类器、分割器和多模态大型语言模型(MLLM,例如LLaVA)上的大量实验表明,SDA实现了卓越的域对齐,并且始终优于现有的扩散驱动的TTA方法。
🔬 方法详解
问题定义:论文旨在解决测试时自适应(TTA)中,扩散模型生成的合成数据与源域数据不对齐的问题。现有的扩散驱动的TTA方法虽然在视觉上生成了与源域相似的数据,但对于深度神经网络而言,这些数据在特征空间中可能存在显著差异,导致模型性能下降。
核心思路:论文的核心思路是通过合成域对齐(SDA)来解决上述问题。具体而言,利用合成数据微调源域模型,使得模型能够更好地适应合成域的特征分布,从而提升模型在目标域上的泛化能力。这种方法的核心在于弥合了合成数据和源数据之间的差距。
技术框架:SDA框架主要包含以下几个阶段:1) 使用条件扩散模型生成带标签的合成数据,构建合成数据集。2) 使用无条件扩散模型对合成数据进行加噪和去噪,即混合扩散(MoD)过程。3) 使用经过MoD处理的合成数据微调源域模型。整个流程旨在创建一个与源域更对齐的合成域,并利用该合成域来提升模型的泛化能力。
关键创新:论文的关键创新在于提出了合成域对齐(SDA)的概念,并设计了混合扩散(MoD)过程来缓解条件扩散模型和无条件扩散模型之间的潜在域不对齐问题。与直接使用无条件扩散模型生成的合成数据进行TTA的方法不同,SDA通过微调源模型来显式地对齐合成域和源域。
关键设计:MoD过程是SDA的关键设计之一。它通过对合成数据进行加噪和去噪,使得模型能够更好地适应合成数据的特征分布,并缓解条件模型和无条件模型之间的差异。具体的参数设置和损失函数选择可能需要根据具体的任务和数据集进行调整,但整体思路是利用合成数据来微调源模型,从而实现更好的域对齐。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SDA在多个任务上均优于现有的扩散驱动的TTA方法。例如,在图像分类任务上,SDA相比于基线方法取得了显著的性能提升。此外,SDA在分割任务和多模态大型语言模型(MLLM)上也表现出优越的性能,证明了其在不同任务上的泛化能力。
🎯 应用场景
该研究成果可广泛应用于各种需要测试时自适应的场景,例如自动驾驶、医疗图像分析、机器人导航等。在这些场景中,模型需要在未见过的、分布偏移的数据上保持高性能。SDA框架通过合成域对齐,能够有效提升模型的泛化能力,降低对目标域数据的依赖,具有重要的实际应用价值和广阔的应用前景。
📄 摘要(原文)
Test-time adaptation (TTA) aims to improve the performance of source-domain pre-trained models on previously unseen, shifted target domains. Traditional TTA methods primarily adapt model weights based on target data streams, making model performance sensitive to the amount and order of target data. The recently proposed diffusion-driven TTA methods mitigate this by adapting model inputs instead of weights, where an unconditional diffusion model, trained on the source domain, transforms target-domain data into a synthetic domain that is expected to approximate the source domain. However, in this paper, we reveal that although the synthetic data in diffusion-driven TTA seems indistinguishable from the source data, it is unaligned with, or even markedly different from the latter for deep networks. To address this issue, we propose a \textbf{S}ynthetic-\textbf{D}omain \textbf{A}lignment (SDA) framework. Our key insight is to fine-tune the source model with synthetic data to ensure better alignment. Specifically, we first employ a conditional diffusion model to generate labeled samples, creating a synthetic dataset. Subsequently, we use the aforementioned unconditional diffusion model to add noise to and denoise each sample before fine-tuning. This Mix of Diffusion (MoD) process mitigates the potential domain misalignment between the conditional and unconditional models. Extensive experiments across classifiers, segmenters, and multimodal large language models (MLLMs, \eg, LLaVA) demonstrate that SDA achieves superior domain alignment and consistently outperforms existing diffusion-driven TTA methods. Our code is available at https://github.com/SHI-Labs/Diffusion-Driven-Test-Time-Adaptation-via-Synthetic-Domain-Alignment.