Toon3D: Seeing Cartoons from New Perspectives

📄 arXiv: 2405.10320v3 📥 PDF

作者: Ethan Weber, Riley Peterlinz, Rohan Mathur, Frederik Warburg, Alexei A. Efros, Angjoo Kanazawa

分类: cs.CV

发布日期: 2024-05-16 (更新: 2024-12-10)

备注: Please see our project page: https://toon3d.studio


💡 一句话要点

提出Toon3D,从卡通图像中恢复几何不一致的3D结构

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 三维重建 卡通图像 运动结构 几何不一致性 图像形变

📋 核心要点

  1. 现有SfM方法在处理卡通图像时,由于其固有的几何不一致性而失效。
  2. Toon3D通过形变输入图像,并在恢复相机姿态和场景几何的同时解释几何不一致性,从而实现一致性。
  3. 实验表明,Toon3D能够获得比传统和基于学习的SfM方法更可靠的相机姿态和场景几何。

📝 摘要(中文)

本文提出了一种名为Toon3D的方法,用于从描绘同一场景的卡通和动漫图像中恢复潜在的3D结构。这是一个有趣的领域,因为创意媒体中的图像通常在没有明确几何一致性的情况下被描绘出来,以用于故事叙述和创意表达——它们只是在定性的意义上是3D的。虽然人类可以很容易地从这些图像中感知到潜在的3D场景,但假设3D一致性的现有运动结构(SfM)方法会彻底失败。Toon3D通过在恢复相机姿态和场景几何的同时对输入图像进行形变,有效地解释了几何不一致性以实现一致性。这个过程由单目深度预测推断出的结构引导。我们创建了一个包含卡通和动漫多视角图像的数据集,并使用我们用户友好的注释工具对其进行可靠的稀疏对应注释。我们恢复的点云可以插入到新视角合成方法中,以从从未绘制过的视角体验卡通。我们针对经典的和最近的基于学习的SfM方法进行了评估,Toon3D能够获得更可靠的相机姿态和场景几何。

🔬 方法详解

问题定义:论文旨在解决从卡通和动漫图像中恢复3D结构的问题。由于卡通图像为了艺术表达,常常违反几何一致性,传统的Structure-from-Motion (SfM)方法无法直接应用,导致重建失败。现有方法难以处理这种几何不一致性,无法准确估计相机姿态和场景几何。

核心思路:Toon3D的核心思路是在恢复相机姿态和场景几何的同时,对输入图像进行形变,从而“解释掉”几何不一致性。通过引入形变,使得原本不满足几何约束的图像变得满足,从而能够应用SfM方法。这种形变过程受到单目深度预测的引导,确保形变后的图像在视觉上仍然合理。

技术框架:Toon3D的整体框架包含以下几个主要步骤:1) 输入多视角卡通图像;2) 使用单目深度预测网络估计每张图像的深度图;3) 利用深度信息引导图像形变,使图像满足几何一致性约束;4) 同时优化相机姿态、场景几何和图像形变参数,得到最终的3D重建结果。

关键创新:Toon3D的关键创新在于引入了图像形变的概念,允许图像在一定程度上偏离原始像素位置,从而适应卡通图像的几何不一致性。这种形变不是随意的,而是受到单目深度预测的约束,保证了重建结果的合理性。与传统SfM方法相比,Toon3D能够更好地处理卡通图像,获得更准确的相机姿态和场景几何。

关键设计:Toon3D使用了一种可微的图像形变模块,允许梯度信息在形变过程中传播,从而实现端到端的优化。损失函数包括:1) 重投影误差,用于约束重建的几何一致性;2) 形变正则化项,用于防止过度形变;3) 深度一致性损失,用于约束形变后的图像与单目深度预测结果一致。具体网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Toon3D在卡通和动漫数据集上进行了评估,实验结果表明,Toon3D能够显著提高相机姿态和场景几何的重建精度。与传统的SfM方法和基于学习的SfM方法相比,Toon3D能够获得更低的重投影误差和更准确的3D点云。论文还展示了使用Toon3D重建的点云进行新视角合成的结果,证明了该方法的有效性。

🎯 应用场景

Toon3D技术可应用于卡通和动漫制作领域,例如,可以从已有的二维图像中生成三维模型,从而方便动画师进行场景编辑和角色动画制作。此外,该技术还可以用于虚拟现实和增强现实应用,让用户能够以全新的视角体验卡通世界。该研究对于理解和重建非真实感图像具有重要意义。

📄 摘要(原文)

We recover the underlying 3D structure from images of cartoons and anime depicting the same scene. This is an interesting problem domain because images in creative media are often depicted without explicit geometric consistency for storytelling and creative expression-they are only 3D in a qualitative sense. While humans can easily perceive the underlying 3D scene from these images, existing Structure-from-Motion (SfM) methods that assume 3D consistency fail catastrophically. We present Toon3D for reconstructing geometrically inconsistent images. Our key insight is to deform the input images while recovering camera poses and scene geometry, effectively explaining away geometrical inconsistencies to achieve consistency. This process is guided by the structure inferred from monocular depth predictions. We curate a dataset with multi-view imagery from cartoons and anime that we annotate with reliable sparse correspondences using our user-friendly annotation tool. Our recovered point clouds can be plugged into novel-view synthesis methods to experience cartoons from viewpoints never drawn before. We evaluate against classical and recent learning-based SfM methods, where Toon3D is able to obtain more reliable camera poses and scene geometry.