DiffuVST: Narrating Fictional Scenes with Global-History-Guided Denoising Models

📄 arXiv: 2312.07066v1 📥 PDF

作者: Shengguang Wu, Mei Yuan, Qi Su

分类: cs.CL, cs.CV

发布日期: 2023-12-12

备注: EMNLP 2023 Findings


💡 一句话要点

DiffuVST:利用全局历史引导的去噪模型生成虚构场景叙事

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉故事讲述 扩散模型 条件生成 非自回归 多模态融合 文本历史引导 图像描述 故事生成

📋 核心要点

  1. 现有视觉故事讲述方法依赖自回归解码器,推理速度慢,且难以处理抽象的合成场景。
  2. DiffuVST 提出基于扩散模型的非自回归生成框架,通过条件去噪过程生成多样化叙述。
  3. DiffuVST 引入双向文本历史引导和多模态适配器,显著提升了故事连贯性和图像文本一致性。

📝 摘要(中文)

近年来,图像和视频生成技术,特别是基于人工智能的图像合成,产生了大量具有高度抽象性和多样性的视觉场景。因此,视觉故事讲述(VST)这项任务,即从一系列图像中生成有意义且连贯的叙述,变得更具挑战性,并且在现实世界图像之外的需求日益增长。现有的VST技术通常使用自回归解码器,虽然取得了显著进展,但存在推理速度慢的问题,并且不适合合成场景。为此,我们提出了一种新的基于扩散的系统DiffuVST,它将一系列视觉描述的生成建模为单个条件去噪过程。DiffuVST在推理时的随机性和非自回归特性使其能够更有效地生成高度多样化的叙述。此外,DiffuVST具有独特的双向文本历史引导和多模态适配器模块设计,有效提高了句子间的连贯性和图像到文本的保真度。在涵盖四个虚构视觉故事数据集的故事生成任务上进行的大量实验表明,DiffuVST在文本质量和推理速度方面均优于传统的自回归模型。

🔬 方法详解

问题定义:论文旨在解决视觉故事讲述(VST)任务中,现有自回归模型在处理虚构或合成场景时推理速度慢、生成故事缺乏多样性和连贯性的问题。现有方法难以捕捉图像之间的长期依赖关系,并且在生成过程中容易出现语义漂移,导致故事质量下降。

核心思路:论文的核心思路是将视觉故事的生成过程建模为一个条件去噪过程,利用扩散模型的非自回归特性来提高生成速度和多样性。通过引入全局历史信息引导去噪过程,增强故事的连贯性。同时,利用多模态适配器模块,更好地融合图像和文本信息,提高图像到文本的保真度。

技术框架:DiffuVST 的整体框架包含以下几个主要模块:1) 图像编码器:提取输入图像的视觉特征。2) 文本编码器:编码已生成的文本历史信息。3) 多模态适配器:将图像特征和文本特征进行融合,生成条件信息。4) 扩散模型:基于条件信息,逐步对噪声进行去噪,生成新的句子。5) 双向文本历史引导:利用前向和后向的文本信息,引导扩散模型的生成过程。

关键创新:DiffuVST 的关键创新在于:1) 采用基于扩散模型的非自回归生成方式,显著提高了推理速度和生成多样性。2) 引入双向文本历史引导机制,有效增强了故事的连贯性。3) 设计多模态适配器模块,更好地融合图像和文本信息,提高了图像到文本的保真度。与传统的自回归模型相比,DiffuVST 能够更有效地处理虚构场景,生成更具创意和连贯性的故事。

关键设计:在扩散模型方面,论文采用了 DDPM (Denoising Diffusion Probabilistic Models) 作为基础模型,并对其进行了改进,使其能够接受条件信息。多模态适配器模块采用了 cross-attention 机制,将图像特征和文本特征进行对齐。在损失函数方面,论文采用了标准的扩散模型损失函数,并添加了额外的正则化项,以提高生成文本的质量。

📊 实验亮点

实验结果表明,DiffuVST 在四个虚构视觉故事数据集上均优于传统的自回归模型。在文本质量方面,DiffuVST 在 BLEU、ROUGE 和 METEOR 等指标上均取得了显著提升。在推理速度方面,DiffuVST 比自回归模型快 2-3 倍。这些结果证明了 DiffuVST 在生成高质量、多样化和连贯的故事方面的优越性。

🎯 应用场景

DiffuVST 可应用于游戏开发、电影制作、虚拟现实等领域,自动生成场景描述和故事情节。该技术能够降低内容创作成本,提高创作效率,并为用户提供更具沉浸感和互动性的体验。未来,该技术有望应用于更广泛的领域,例如教育、娱乐和文化传播。

📄 摘要(原文)

Recent advances in image and video creation, especially AI-based image synthesis, have led to the production of numerous visual scenes that exhibit a high level of abstractness and diversity. Consequently, Visual Storytelling (VST), a task that involves generating meaningful and coherent narratives from a collection of images, has become even more challenging and is increasingly desired beyond real-world imagery. While existing VST techniques, which typically use autoregressive decoders, have made significant progress, they suffer from low inference speed and are not well-suited for synthetic scenes. To this end, we propose a novel diffusion-based system DiffuVST, which models the generation of a series of visual descriptions as a single conditional denoising process. The stochastic and non-autoregressive nature of DiffuVST at inference time allows it to generate highly diverse narratives more efficiently. In addition, DiffuVST features a unique design with bi-directional text history guidance and multimodal adapter modules, which effectively improve inter-sentence coherence and image-to-text fidelity. Extensive experiments on the story generation task covering four fictional visual-story datasets demonstrate the superiority of DiffuVST over traditional autoregressive models in terms of both text quality and inference speed.