DAViD: Data-efficient and Accurate Vision Models from Synthetic Data

📄 arXiv: 2507.15365v1 📥 PDF

作者: Fatemeh Saleh, Sadegh Aliakbarian, Charlie Hewitt, Lohit Petikam, Xiao-Xian, Antonio Criminisi, Thomas J. Cashman, Tadas Baltrušaitis

分类: cs.CV

发布日期: 2025-07-21

备注: Accepted at ICCV 2025


💡 一句话要点

DAViD:利用高效且精确的合成数据训练人体视觉模型

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 合成数据 计算机视觉 深度学习 人体建模 数据生成 模型训练 密集预测

📋 核心要点

  1. 现有的人体视觉模型通常参数量巨大,需要庞大的数据集和昂贵的训练,推理计算量大。
  2. 本文提出使用高质量的合成数据进行训练,在保证精度的同时,降低训练和推理的成本,并解决数据来源和公平性问题。
  3. 实验表明,在深度估计、表面法线估计和软前景分割等任务上,该方法在保证精度的前提下,显著降低了训练和推理成本。

📝 摘要(中文)

本文提出了一种利用小规模但高质量的合成数据集训练视觉模型的方法,在不损失精度的前提下,提高了效率。使用合成训练数据提供了卓越的细节和完美的标签,同时为数据来源、使用权和用户许可提供了强有力的保证。程序化数据合成还提供了对数据多样性的显式控制,可用于解决模型训练中的不公平性。在真实输入图像上的大量定量评估表明,我们的模型在三个密集预测任务(深度估计、表面法线估计和软前景分割)上具有很高的准确性。与类似精度的基础模型相比,我们的模型仅需一小部分的训练和推理成本。我们的人体合成数据集和训练模型可在 https://aka.ms/DAViD 获取。

🔬 方法详解

问题定义:现有的人体视觉模型依赖于大规模的真实世界数据集,这些数据集的获取成本高昂,标注工作繁琐,并且存在数据隐私和伦理问题。此外,真实世界数据集可能存在偏差,导致训练出的模型在不同人群或场景下表现不佳。因此,如何利用更高效的数据训练出准确且公平的人体视觉模型是一个重要的挑战。

核心思路:本文的核心思路是利用高质量的合成数据来训练人体视觉模型。合成数据可以提供完美的标签,并且可以精确控制数据的多样性,从而解决真实世界数据集的局限性。通过精心设计的程序化数据生成流程,可以生成包含丰富细节和多样化场景的合成数据,从而训练出具有良好泛化能力的模型。

技术框架:该方法主要包含两个阶段:合成数据生成和模型训练。在合成数据生成阶段,使用程序化建模技术生成包含人体及其周围环境的3D场景,并渲染成高质量的图像。在模型训练阶段,使用生成的合成数据训练深度学习模型,例如用于深度估计、表面法线估计和软前景分割的模型。

关键创新:该方法最重要的创新点在于利用程序化数据生成技术,生成高质量且多样化的合成数据,从而有效地训练人体视觉模型。与传统的基于真实世界数据的方法相比,该方法可以显著降低数据获取和标注的成本,并且可以更好地控制数据的多样性,从而提高模型的泛化能力和公平性。

关键设计:在合成数据生成方面,需要精心设计3D场景的建模和渲染流程,以保证合成数据的真实感和多样性。在模型训练方面,可以使用各种深度学习架构,例如卷积神经网络(CNN)或Transformer,并采用合适的损失函数和优化算法。此外,还可以使用数据增强技术来进一步提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文在三个密集预测任务上进行了实验,包括深度估计、表面法线估计和软前景分割。实验结果表明,使用合成数据训练的模型在精度上与使用真实数据训练的模型相当,甚至在某些情况下表现更好。更重要的是,使用合成数据训练的模型可以显著降低训练和推理的成本,例如减少了训练时间和计算资源的需求。这些结果表明,合成数据是一种很有前途的训练数据来源,可以有效地解决真实世界数据集的局限性。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、游戏开发、机器人技术、智能监控等领域。通过使用合成数据训练的人体视觉模型,可以实现更高效、更准确的人体姿态估计、动作识别、人机交互等功能,从而提升用户体验和应用性能。此外,该方法还可以用于解决数据隐私和伦理问题,促进人工智能技术的健康发展。

📄 摘要(原文)

The state of the art in human-centric computer vision achieves high accuracy and robustness across a diverse range of tasks. The most effective models in this domain have billions of parameters, thus requiring extremely large datasets, expensive training regimes, and compute-intensive inference. In this paper, we demonstrate that it is possible to train models on much smaller but high-fidelity synthetic datasets, with no loss in accuracy and higher efficiency. Using synthetic training data provides us with excellent levels of detail and perfect labels, while providing strong guarantees for data provenance, usage rights, and user consent. Procedural data synthesis also provides us with explicit control on data diversity, that we can use to address unfairness in the models we train. Extensive quantitative assessment on real input images demonstrates accuracy of our models on three dense prediction tasks: depth estimation, surface normal estimation, and soft foreground segmentation. Our models require only a fraction of the cost of training and inference when compared with foundational models of similar accuracy. Our human-centric synthetic dataset and trained models are available at https://aka.ms/DAViD.