VistaGEN: Consistent Driving Video Generation with Fine-Grained Control Using Multiview Visual-Language Reasoning

📄 arXiv: 2603.28353v1 📥 PDF

作者: Li-Heng Chen, Ke Cheng, Yahui Liu, Lei Shi, Shi-Sheng Huang, Hongbo Fu

分类: cs.CV

发布日期: 2026-03-30


💡 一句话要点

VistaGEN:利用多视角视觉-语言推理实现精细控制的一致性驾驶视频生成

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 驾驶视频生成 多视角学习 视觉-语言推理 时空一致性 细粒度控制

📋 核心要点

  1. 现有驾驶视频生成方法在可控性、分辨率和视频长度方面取得了进展,但缺乏对对象级别的细粒度控制,难以生成多样化的驾驶视频。
  2. VistaGEN通过将视觉-语言特征注入多视角视频生成器,并利用多视角视觉-语言评估器(MV-VLM)进行闭环优化,实现细粒度控制和时空一致性。
  3. 实验结果表明,VistaGEN在生成具有细粒度控制的多样化驾驶视频方面表现出色,尤其是在长尾对象上,并显著提升了时空一致性。

📝 摘要(中文)

本文提出了一种新的驾驶视频生成技术VistaGEN,它能够在保持长视频序列时空一致性的同时,对特定实体(包括3D对象、图像和文本描述)进行细粒度的控制,从而生成多样化的驾驶视频。其核心创新是将多视角视觉-语言推理融入到长驾驶视频生成中。为此,该方法将视觉-语言特征注入到多视角视频生成器中,以实现细粒度的可控性。更重要的是,提出了一个多视角视觉-语言评估器(MV-VLM),以智能且自动地评估生成内容的时空一致性,从而形成一种新的生成-评估-再生的闭环生成机制。该机制确保了高质量、连贯的输出,有助于创建复杂且可靠的驾驶场景。此外,在闭环生成中,引入了一个对象级细化模块来细化MV-VLM评估的不满意结果,然后将其反馈给视频生成器以进行再生。大量评估表明,VistaGEN实现了具有细粒度可控性的多样化驾驶视频生成结果,尤其是在长尾对象方面,并且比以前的方法具有更好的时空一致性。

🔬 方法详解

问题定义:现有驾驶视频生成方法难以在保持时空一致性的前提下,对视频中的特定对象进行细粒度的控制,尤其是在生成长视频时,这个问题更加突出。这限制了生成多样化和可定制的驾驶场景的能力。现有方法要么缺乏对对象级别控制的能力,要么在长视频生成中出现时空不一致的问题。

核心思路:VistaGEN的核心思路是将多视角视觉-语言推理融入到驾驶视频生成过程中。通过将视觉和语言信息结合,并利用多视角信息进行推理,该方法能够更好地理解场景中的对象关系和时空变化,从而实现对视频内容更精确的控制,并保证生成视频的时空一致性。闭环生成-评估-再生的机制,进一步提升了生成视频的质量。

技术框架:VistaGEN的整体框架包含以下几个主要模块:1) 多视角视频生成器:负责生成初始的驾驶视频。该生成器接受视觉-语言特征作为输入,以实现细粒度的可控性。2) 多视角视觉-语言评估器 (MV-VLM):用于评估生成视频的时空一致性。MV-VLM能够智能地分析视频中的对象关系和时空变化,并判断其是否符合预期。3) 对象级细化模块:用于细化MV-VLM评估的不满意结果。该模块能够根据MV-VLM的反馈,对视频中的特定对象进行调整和优化。4) 闭环生成机制:将生成器、评估器和细化模块连接起来,形成一个闭环的优化过程。通过不断地生成、评估和再生,该机制能够逐步提升生成视频的质量和一致性。

关键创新:VistaGEN的关键创新在于以下几个方面:1) 多视角视觉-语言推理:将视觉和语言信息结合,并利用多视角信息进行推理,从而实现对视频内容更精确的控制。2) 多视角视觉-语言评估器 (MV-VLM):能够智能地评估生成视频的时空一致性,并为生成器提供反馈。3) 对象级细化模块:能够根据MV-VLM的反馈,对视频中的特定对象进行调整和优化。4) 闭环生成机制:通过不断地生成、评估和再生,该机制能够逐步提升生成视频的质量和一致性。与现有方法的本质区别在于,VistaGEN能够实现对视频内容更细粒度的控制,并保证生成视频的时空一致性。

关键设计:论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节。这些细节可能在补充材料或后续工作中给出。但可以推测,MV-VLM可能使用了对比学习或相似度度量等方法来评估时空一致性。对象级细化模块可能使用了图像修复或GAN等技术来调整和优化视频中的特定对象。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过大量实验证明了VistaGEN的有效性。实验结果表明,VistaGEN能够生成具有细粒度可控性的多样化驾驶视频,尤其是在长尾对象方面表现出色。与现有方法相比,VistaGEN在时空一致性方面取得了显著提升。具体的性能数据和对比基线在论文中进行了详细的展示,证明了VistaGEN的优越性。

🎯 应用场景

VistaGEN技术可应用于自动驾驶仿真、游戏开发、电影制作等领域。在自动驾驶仿真中,可以生成各种复杂和真实的驾驶场景,用于测试和验证自动驾驶算法。在游戏开发中,可以生成逼真的游戏环境和角色动画。在电影制作中,可以生成特效场景和虚拟角色,降低制作成本,提高制作效率。该技术还有助于创建个性化和定制化的驾驶体验,例如,根据用户的喜好生成特定的驾驶路线和场景。

📄 摘要(原文)

Driving video generation has achieved much progress in controllability, video resolution, and length, but fails to support fine-grained object-level controllability for diverse driving videos, while preserving the spatiotemporal consistency, especially in long video generation. In this paper, we present a new driving video generation technique, called VistaGEN, which enables fine-grained control of specific entities, including 3D objects, images, and text descriptions, while maintaining spatiotemporal consistency in long video sequences. Our key innovation is the incorporation of multiview visual-language reasoning into the long driving video generation. To this end, we inject visual-language features into a multiview video generator to enable fine-grained controllability. More importantly, we propose a multiview vision-language evaluator (MV-VLM) to intelligently and automatically evaluate spatiotemporal consistency of the generated content, thus formulating a novel generation-evaluation-regeneration closed-loop generation mechanism. This mechanism ensures high-quality, coherent outputs, facilitating the creation of complex and reliable driving scenarios. Besides, within the closed-loop generation, we introduce an object-level refinement module to refine the unsatisfied results evaluated from the MV-VLM and then feed them back to the video generator for regeneration. Extensive evaluation shows that our VistaGEN achieves diverse driving video generation results with fine-grained controllability, especially for long-tail objects, and much better spatiotemporal consistency than previous approaches.