SADGE: Structure and Appearance Domain Gap Estimation of Synthetic and Real Data

📄 arXiv: 2605.22467v1 📥 PDF

作者: Patryk Bartkowiak, Bartosz Kotrys, Dominik Michels, Soren Pirk, Wojtek Palubicki

分类: cs.CV

发布日期: 2026-05-21


💡 一句话要点

SADGE:通过结构和外观域差异估计合成数据与真实数据的性能差距

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 合成数据 域适应 域差距估计 计算机视觉 迁移学习

📋 核心要点

  1. 现有方法难以准确预测合成数据在真实场景中的模型性能,阻碍了模型开发。
  2. SADGE通过融合外观和几何相似性,量化合成数据与真实数据之间的域差距。
  3. 实验表明,SADGE在多个数据集和任务上,与下游迁移性能具有更强的相关性。

📝 摘要(中文)

我们提出了SADGE,一种定量相似性度量,用于预测合成图像数据集在常见计算机视觉任务中的性能,而无需下游模型训练。评估合成数据集是否能训练出在真实世界数据上表现良好的模型仍然是模型开发中的一个瓶颈。现有的评估指标(例如,PSNR、FID、CLIP)主要测量真实图像和合成图像之间的语义对齐(外观相似性得分)。较少考虑图像之间的结构相似性来评估域差距(几何相似性得分)。然而,据我们所知,目前还没有研究评估哪种相似性度量对于给定的合成数据集是最佳的下游性能预测指标。在本文中,我们通过各种不同的合成数据集和下游任务表明,外观或几何结构本身都不能可靠地预测下游性能;相反,它们的非线性相互作用决定了合成数据的效用。具体来说,我们测量了在合成图像和真实图像之间计算的常用外观和几何相似性指标与目标检测、语义分割和姿态估计中的下游性能的相关性。在五个公共的合成到真实基准测试系列和15个数据集级别的变体(79k图像对)中,SADGE在线性和基于排名的标准下都达到了与下游迁移性能最强的关联,达到了Pearson r=0.88和Spearman rho=0.77。我们计算了几何方法和外观方法的所有组合的SADGE分数。最佳配置是通过受约束的双线性交互将DINOv3外观相似性与MASt3R几何一致性融合,优于最强的仅几何基线和最强的仅外观基线。

🔬 方法详解

问题定义:现有方法,如PSNR、FID、CLIP等,主要关注合成图像和真实图像之间的语义对齐(外观相似性),或者较少关注结构相似性(几何相似性),但无法准确预测合成数据训练的模型在真实数据上的性能。因此,如何有效地评估合成数据对于特定下游任务的效用,是一个亟待解决的问题。

核心思路:论文的核心思路是,仅仅依赖外观或几何相似性都无法可靠地预测下游性能,而是需要考虑它们之间的非线性相互作用。SADGE通过融合外观和几何相似性,来更准确地估计合成数据和真实数据之间的域差距,从而预测合成数据的效用。

技术框架:SADGE的整体框架包括以下几个步骤:1) 计算合成图像和真实图像之间的外观相似性得分(Appearance Similarity Score);2) 计算合成图像和真实图像之间的几何相似性得分(Geometric Similarity Score);3) 通过一个受约束的双线性交互,将外观相似性得分和几何相似性得分融合,得到SADGE得分。

关键创新:论文的关键创新在于:1) 提出了SADGE,一种融合外观和几何相似性的定量相似性度量;2) 证明了外观和几何相似性的非线性相互作用对于预测下游性能至关重要;3) 通过实验验证了SADGE在多个数据集和任务上,与下游迁移性能具有更强的相关性。

关键设计:SADGE的关键设计包括:1) 使用DINOv3提取外观特征,计算外观相似性得分;2) 使用MASt3R提取几何特征,计算几何相似性得分;3) 使用一个受约束的双线性交互,将外观相似性得分和几何相似性得分融合。这个双线性交互的约束条件是,SADGE得分必须在0到1之间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SADGE在五个公共的合成到真实基准测试系列和15个数据集级别的变体(79k图像对)中,在线性和基于排名的标准下都达到了与下游迁移性能最强的关联,达到了Pearson r=0.88和Spearman rho=0.77。通过受约束的双线性交互将DINOv3外观相似性与MASt3R几何一致性融合,优于最强的仅几何基线和最强的仅外观基线。

🎯 应用场景

SADGE可用于指导合成数据的生成和选择,从而提高模型在真实世界场景中的性能。它能够帮助研究人员和工程师更有效地利用合成数据进行模型训练,减少对昂贵且耗时的真实数据标注的依赖。此外,SADGE还可应用于评估不同合成数据生成方法的优劣,推动合成数据生成技术的发展。

📄 摘要(原文)

We propose SADGE, a quantitative similarity metric that predicts the performance of synthetic image datasets for common computer vision tasks without downstream model training. Estimating whether a synthetic dataset will lead to a model that performs well on real-world data remains a bottleneck in model development. Existing evaluation metrics (e.g., PSNR, FID, CLIP) primarily measure semantic alignment between real and synthetic images (Appearance Similarity Score). Less commonly, structural similarity between images is considered to assess the domain gap (Geometric Similarity Score). However, to the best of our knowledge there exists no studies that evaluate which similarity metric is the best downstream predictor for a given synthetic dataset. In this paper, we show over a wide variety of different synthetic datasets and downstream tasks that neither appearance nor geometry alone can reliably predict downstream performance; rather, it is their non-linear interplay that dictates synthetic data utility. Specifically, we measure how commonly used Appearance and Geometric Similarity metrics computed between synthetic and real images correlate with downstream performance in object detection, semantic segmentation, and pose estimation. Across five public synthetic-to-real benchmark families and 15 dataset-level variants (79k image pairs), SADGE achieves the strongest association with downstream transfer performance under both linear and rank-based criteria, reaching Pearson r=0.88 and Spearman rho=0.77. We compute for each combination of geometry-based methods and appearance-based approaches SADGE scores across all benchmark families. The best configuration is obtained by fusing DINOv3 appearance similarity with MASt3R geometric consistency through a constrained bilinear interaction, outperforming both the strongest geometry-only baseline and the strongest appearance-only baseline .