4-Doodle: Text to 3D Sketches that Move!

📄 arXiv: 2510.25319v1 📥 PDF

作者: Hao Chen, Jiaqi Wang, Yonggang Qi, Ke Li, Kaiyue Pang, Yi-Zhe Song

分类: cs.GR, cs.AI

发布日期: 2025-10-29


💡 一句话要点

4-Doodle:提出一种文本驱动的动态3D草图生成框架,无需训练。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 文本到3D 草图动画 扩散模型 免训练 多视角一致性

📋 核心要点

  1. 现有方法难以生成具有时间连贯性和多视角一致性的动态3D草图,缺乏相应的配对数据集也增加了训练难度。
  2. 4-Doodle 框架通过双空间蒸馏,利用预训练的图像和视频扩散模型,实现文本驱动的动态3D草图生成,无需训练。
  3. 实验结果表明,4-Doodle 在生成时间上逼真且结构上稳定的3D草图动画方面,优于现有基线方法,提升了保真度和可控性。

📝 摘要(中文)

本文提出了一项新任务:文本到3D草图动画生成,旨在将自由形式的草图在动态3D空间中赋予生命。与以往专注于照片级真实感内容生成的工作不同,本文关注稀疏、风格化和视角一致的3D矢量草图,这是一种轻量级且可解释的媒介,非常适合视觉交流和原型设计。然而,这项任务极具挑战性:(i) 不存在文本和3D(或4D)草图的配对数据集;(ii) 草图需要结构抽象,而这很难用NeRF或点云等传统3D表示方法建模;(iii) 对草图进行动画处理需要时间连贯性和多视角一致性,而当前的流程无法解决这些问题。因此,本文提出了4-Doodle,这是第一个用于从文本生成动态3D草图的免训练框架。它通过双空间蒸馏方案利用预训练的图像和视频扩散模型:一个空间使用可微贝塞尔曲线捕获多视角一致的几何体,而另一个空间通过时间感知先验编码运动动态。与以往的工作(例如,DreamFusion)不同,我们的多视角优化确保了结构对齐并避免了视角歧义,这对于稀疏草图至关重要。此外,本文还引入了一个结构感知的运动模块,该模块将形状保持轨迹与变形感知变化分开,从而实现富有表现力的运动,例如翻转、旋转和铰接运动。大量的实验表明,本文的方法可以生成时间上逼真且结构上稳定的3D草图动画,在保真度和可控性方面均优于现有的基线方法。我们希望这项工作能够成为朝着更直观和可访问的4D内容创作迈出的一步。

🔬 方法详解

问题定义:本文旨在解决从文本描述生成动态3D草图动画的问题。现有方法,如基于NeRF或点云的方法,难以对草图的结构抽象进行建模,并且缺乏对时间连贯性和多视角一致性的有效处理。此外,缺乏文本到3D/4D草图的配对数据集,使得有监督学习方法难以应用。

核心思路:本文的核心思路是利用预训练的图像和视频扩散模型,通过双空间蒸馏的方式,将文本信息转化为动态3D草图。一个空间负责生成多视角一致的几何结构,另一个空间负责编码运动动态。这种方法避免了直接训练3D生成模型的需求,并充分利用了现有预训练模型的强大能力。

技术框架:4-Doodle框架包含以下主要模块: 1. 文本编码器:将输入的文本描述转换为特征向量。 2. 几何空间蒸馏:利用预训练的图像扩散模型,通过多视角优化生成多视角一致的3D几何结构,使用可微贝塞尔曲线表示。 3. 运动空间蒸馏:利用预训练的视频扩散模型,编码运动动态,生成时间连贯的运动先验。 4. 结构感知运动模块:将运动分解为形状保持轨迹和变形感知变化,实现更丰富的运动效果。

关键创新:本文最重要的创新点在于提出了一个免训练的框架,通过双空间蒸馏的方式,将文本信息转化为动态3D草图。与以往的单视角优化方法不同,本文采用多视角优化,确保了结构对齐和避免了视角歧义,这对于稀疏草图至关重要。此外,结构感知运动模块的设计,使得生成的动画具有更强的可控性和表现力。

关键设计: * 可微贝塞尔曲线:使用可微贝塞尔曲线表示3D几何结构,方便进行梯度优化。 * 多视角优化:从多个视角同时进行优化,确保生成的多视角一致性。 * 结构感知运动模块:将运动分解为形状保持轨迹和变形感知变化,通过不同的损失函数进行约束。 * 时间感知先验:利用预训练的视频扩散模型,学习时间连贯的运动先验,保证动画的流畅性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,4-Doodle能够生成时间上逼真且结构上稳定的3D草图动画,在保真度和可控性方面均优于现有基线方法。通过与DreamFusion等方法的对比,证明了多视角优化和结构感知运动模块的有效性。用户研究也表明,用户对4-Doodle生成结果的质量和可控性给予了积极评价。

🎯 应用场景

该研究成果可应用于虚拟现实/增强现实内容创作、动画设计、游戏开发、以及快速原型设计等领域。用户可以通过简单的文本描述,快速生成动态的3D草图,从而降低3D内容创作的门槛,并加速设计迭代过程。未来,该技术有望进一步扩展到更复杂的3D场景和动画生成。

📄 摘要(原文)

We present a novel task: text-to-3D sketch animation, which aims to bring freeform sketches to life in dynamic 3D space. Unlike prior works focused on photorealistic content generation, we target sparse, stylized, and view-consistent 3D vector sketches, a lightweight and interpretable medium well-suited for visual communication and prototyping. However, this task is very challenging: (i) no paired dataset exists for text and 3D (or 4D) sketches; (ii) sketches require structural abstraction that is difficult to model with conventional 3D representations like NeRFs or point clouds; and (iii) animating such sketches demands temporal coherence and multi-view consistency, which current pipelines do not address. Therefore, we propose 4-Doodle, the first training-free framework for generating dynamic 3D sketches from text. It leverages pretrained image and video diffusion models through a dual-space distillation scheme: one space captures multi-view-consistent geometry using differentiable Bézier curves, while the other encodes motion dynamics via temporally-aware priors. Unlike prior work (e.g., DreamFusion), which optimizes from a single view per step, our multi-view optimization ensures structural alignment and avoids view ambiguity, critical for sparse sketches. Furthermore, we introduce a structure-aware motion module that separates shape-preserving trajectories from deformation-aware changes, enabling expressive motion such as flipping, rotation, and articulated movement. Extensive experiments show that our method produces temporally realistic and structurally stable 3D sketch animations, outperforming existing baselines in both fidelity and controllability. We hope this work serves as a step toward more intuitive and accessible 4D content creation.