3DArticCyclists: Generating Synthetic Articulated 8D Pose-Controllable Cyclist Data for Computer Vision Applications

📄 arXiv: 2410.10782v2 📥 PDF

作者: Eduardo R. Corral-Soto, Yang Liu, Tongtong Cao, Yuan Ren, Liu Bingbing

分类: cs.CV, cs.HC

发布日期: 2024-10-14 (更新: 2025-03-12)


💡 一句话要点

提出3DArticCyclists框架,生成可控3D自行车骑行者合成数据,解决自动驾驶中骑行者数据稀缺问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 合成数据生成 3D高斯溅射 自动驾驶 骑行者感知 逆运动学

📋 核心要点

  1. 自动驾驶感知中,骑行者数据稀缺限制了深度学习模型在相关任务上的泛化能力,阻碍了更细粒度研究。
  2. 提出3DArticCyclists框架,通过3D高斯溅射重建和参数化组合,生成可控姿态的动态3D骑行者数据。
  3. 实验结果表明,该方法生成的骑行者数据在质量上优于基于稳定扩散的方法,为相关任务提供高质量训练数据。

📝 摘要(中文)

在自动驾驶感知中,骑行者被认为是安全关键的场景对象。常用的公开自动驾驶数据集通常包含大量的汽车和车辆对象实例,但骑行者实例的数量较少,通常外观和姿势多样性有限。骑行者训练数据的稀缺性不仅限制了深度学习感知模型在骑行者语义分割、姿势估计和骑行者穿越意图预测方面的泛化能力,而且限制了对新的骑行者相关任务的研究,例如在人类和铰接物体之间复杂交互下的细粒度骑行者姿势估计和时空分析。为了解决这个数据稀缺问题,本文提出了一个框架来生成合成的动态3D骑行者数据资产,这些资产可以用于生成不同任务的训练数据。在我们的框架中,我们设计了一种方法来创建一个新的基于部件的多视角铰接合成3D自行车数据集,我们称之为3DArticBikes,我们使用它来训练一个基于3D高斯溅射(3DGS)的重建和图像渲染方法。然后,我们提出了一个参数化的自行车3DGS组合模型来组装8自由度姿势可控的3D自行车。最后,利用来自骑行者视频的动态信息,通过重新调整一个可选择的合成3D人的姿势,构建一个完整的合成动态3D骑行者(骑自行车的人),同时使用提出的基于3D关键点优化的逆运动学姿势细化方法,自动将骑行者放置到我们的新铰接3D自行车上。我们展示了定性和定量的结果,并将我们生成的骑行者与最近一种基于稳定扩散的方法进行了比较。

🔬 方法详解

问题定义:自动驾驶场景中,骑行者是重要的安全对象,但现有公开数据集中的骑行者数据量少,姿态和外观多样性不足。这限制了深度学习模型在骑行者感知任务(如语义分割、姿态估计、意图预测)上的性能,也阻碍了对更复杂骑行者行为的研究。

核心思路:通过合成数据来扩充训练集,解决骑行者数据稀缺问题。核心在于构建一个可控的3D骑行者生成框架,能够生成具有多样化姿态和外观的骑行者数据,从而提升模型的泛化能力。

技术框架:该框架主要包含以下几个阶段:1) 创建3DArticBikes数据集,这是一个基于部件的多视角铰接3D自行车数据集。2) 使用3DArticBikes训练基于3D高斯溅射(3DGS)的重建和图像渲染方法,实现自行车的3D重建。3) 提出参数化的自行车3DGS组合模型,用于组装8自由度姿势可控的3D自行车。4) 利用骑行者视频的动态信息,通过逆运动学方法将合成3D人物放置到3D自行车上,生成完整的动态3D骑行者。

关键创新:1) 提出了基于3DGS的自行车重建和渲染方法,能够生成高质量的3D自行车模型。2) 设计了参数化的自行车3DGS组合模型,实现了对自行车姿态的精确控制。3) 提出了基于3D关键点优化的逆运动学姿势细化方法,能够将合成人物自然地放置到自行车上。

关键设计:1) 3DArticBikes数据集包含多个部件的自行车模型,每个部件都有独立的3D模型和纹理。2) 参数化的自行车3DGS组合模型使用8个自由度来控制自行车的姿态,包括车把转向、车轮旋转、座椅高度等。3) 逆运动学姿势细化方法通过优化3D关键点的位置,使得合成人物的姿态与自行车的姿态相匹配。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了所提出的3DArticCyclists框架的有效性。定性结果表明,该方法生成的骑行者数据在视觉质量上优于基于稳定扩散的方法。定量结果(具体数值未知)也表明,使用该方法生成的数据训练的模型在骑行者感知任务上取得了更好的性能。这些结果表明,该方法能够有效地解决骑行者数据稀缺问题,为相关研究提供高质量的训练数据。

🎯 应用场景

该研究成果可应用于自动驾驶感知系统的训练数据生成,提升系统对骑行者的检测、跟踪和行为预测能力,从而提高自动驾驶的安全性。此外,该方法还可用于虚拟现实、游戏等领域,生成逼真的骑行者动画和交互体验。未来,该技术有望扩展到其他铰接物体的合成数据生成,推动相关领域的发展。

📄 摘要(原文)

In Autonomous Driving (AD) Perception, cyclists are considered safety-critical scene objects. Commonly used publicly-available AD datasets typically contain large amounts of car and vehicle object instances but a low number of cyclist instances, usually with limited appearance and pose diversity. This cyclist training data scarcity problem not only limits the generalization of deep-learning perception models for cyclist semantic segmentation, pose estimation, and cyclist crossing intention prediction, but also limits research on new cyclist-related tasks such as fine-grained cyclist pose estimation and spatio-temporal analysis under complex interactions between humans and articulated objects. To address this data scarcity problem, in this paper we propose a framework to generate synthetic dynamic 3D cyclist data assets that can be used to generate training data for different tasks. In our framework, we designed a methodology for creating a new part-based multi-view articulated synthetic 3D bicycle dataset that we call 3DArticBikes that we use to train a 3D Gaussian Splatting (3DGS)-based reconstruction and image rendering method. We then propose a parametric bicycle 3DGS composition model to assemble 8-DoF pose-controllable 3D bicycles. Finally, using dynamic information from cyclist videos, we build a complete synthetic dynamic 3D cyclist (rider pedaling a bicycle) by re-posing a selectable synthetic 3D person, while automatically placing the rider onto one of our new articulated 3D bicycles using a proposed 3D Keypoint optimization-based Inverse Kinematics pose refinement. We present both, qualitative and quantitative results where we compare our generated cyclists against those from a recent stable diffusion-based method.