Speech-Synchronized Whiteboard Generation via VLM-Driven Structured Drawing Representations

📄 arXiv: 2603.25870v1 📥 PDF

作者: Suraj Prasad, Pinak Mahapatra

分类: cs.CV, cs.LG

发布日期: 2026-03-26


💡 一句话要点

提出基于VLM的语音同步白板生成方法,解决教育视频内容自动生成问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音同步 白板生成 视觉语言模型 教育视频 多模态学习

📋 核心要点

  1. 现有方法缺乏在白板教育视频中同步手绘插图和语音叙述的能力,难以生成结构化和可复现的绘图。
  2. 论文提出利用视觉语言模型,通过时间戳条件学习语音和笔画序列之间的对应关系,实现语音同步的白板内容生成。
  3. 实验结果表明,该方法在少量数据下即可有效生成与语音同步的白板内容,并在未见过的STEM主题上具有良好的泛化能力。

📝 摘要(中文)

本文提出了一种新的方法,用于创建白板风格的教育视频,该方法能够精确地协调手绘插图和口头叙述。现有方法无法解决这种具有结构化、可复现的绘图表示的多模态同步问题。为此,作者构建了首个包含24个配对的Excalidraw演示和叙述音频的数据集,其中每个绘图元素都带有毫秒级精度的创建时间戳,涵盖8个STEM领域。研究表明,通过LoRA微调的视觉语言模型(Qwen2-VL-7B)仅使用24个演示样本,即可预测与语音同步的完整笔画序列。对主题分层的五重交叉验证表明,时间戳条件显著改善了时间对齐效果,并且模型可以泛化到未见过的STEM主题。作者讨论了该方法在真实课堂环境中的可迁移性,并发布了数据集和代码,以支持未来在自动化教育内容生成方面的研究。

🔬 方法详解

问题定义:论文旨在解决自动生成语音同步的白板教育视频的问题。现有方法缺乏对语音和视觉信息的有效融合,难以保证手绘插图与语音叙述在时间上的精确同步,并且缺乏结构化的绘图表示,导致生成的内容难以编辑和复用。

核心思路:论文的核心思路是利用视觉语言模型(VLM)学习语音和笔画序列之间的对应关系,通过时间戳条件来约束生成过程,从而实现语音同步的白板内容生成。这种方法能够将语音信息融入到绘图过程中,保证了生成内容的同步性。

技术框架:整体框架包含数据集构建和模型训练两个主要阶段。首先,构建一个包含配对的Excalidraw演示和叙述音频的数据集,其中每个绘图元素都带有毫秒级精度的创建时间戳。然后,使用该数据集对视觉语言模型(Qwen2-VL-7B)进行微调,使其能够根据语音输入预测对应的笔画序列和时间戳。

关键创新:论文的关键创新在于:1) 构建了一个新的语音同步白板数据集,为相关研究提供了数据基础;2) 提出了一种基于时间戳条件的VLM微调方法,能够有效提高生成内容的同步性;3) 验证了该方法在少量数据下的有效性和泛化能力。

关键设计:论文使用Qwen2-VL-7B作为基础模型,并通过LoRA进行微调。在训练过程中,将语音特征和时间戳信息作为模型的输入,并使用交叉熵损失函数来优化模型的生成能力。具体而言,时间戳信息被嵌入到模型的输入序列中,从而引导模型生成与语音同步的笔画序列。此外,论文还采用了主题分层的五重交叉验证方法来评估模型的泛化能力。

📊 实验亮点

实验结果表明,通过时间戳条件微调的Qwen2-VL-7B模型在语音同步白板生成任务上取得了显著的性能提升。与没有时间戳条件的基线模型相比,该方法能够更精确地控制笔画序列的生成时间,从而实现更好的语音同步效果。此外,该模型在未见过的STEM主题上表现出良好的泛化能力,表明其具有实际应用潜力。

🎯 应用场景

该研究成果可应用于自动化教育内容生成、在线教育平台、辅助教学工具等领域。通过该方法,可以快速生成高质量的语音同步白板视频,降低教育内容制作成本,提高教学效率。未来,该技术还可以扩展到其他类型的多模态内容生成,例如动画制作、演示文稿生成等。

📄 摘要(原文)

Creating whiteboard-style educational videos demands precise coordination between freehand illustrations and spoken narration, yet no existing method addresses this multimodal synchronization problem with structured, reproducible drawing representations. We present the first dataset of 24 paired Excalidraw demonstrations with narrated audio, where every drawing element carries millisecond-precision creation timestamps spanning 8 STEM domains. Using this data, we study whether a vision-language model (Qwen2-VL-7B), fine-tuned via LoRA, can predict full stroke sequences synchronized to speech from only 24 demonstrations. Our topic-stratified five-fold evaluation reveals that timestamp conditioning significantly improves temporal alignment over ablated baselines, while the model generalizes across unseen STEM topics. We discuss transferability to real classroom settings and release our dataset and code to support future research in automated educational content generation.