VistaGEN: Consistent Driving Video Generation with Fine-Grained Control Using Multiview Visual-Language Reasoning

作者: Li-Heng Chen, Ke Cheng, Yahui Liu, Lei Shi, Shi-Sheng Huang, Hongbo Fu

分类: cs.CV

发布日期: 2026-03-30

💡 一句话要点

VistaGEN：利用多视角视觉-语言推理实现精细控制的一致性驾驶视频生成

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 驾驶视频生成 多视角学习 视觉-语言推理 时空一致性 细粒度控制

📋 核心要点

现有驾驶视频生成方法在可控性、分辨率和视频长度方面取得了进展，但缺乏对对象级别的细粒度控制，难以生成多样化的驾驶视频。
VistaGEN通过将视觉-语言特征注入多视角视频生成器，并利用多视角视觉-语言评估器(MV-VLM)进行闭环优化，实现细粒度控制和时空一致性。
实验结果表明，VistaGEN在生成具有细粒度控制的多样化驾驶视频方面表现出色，尤其是在长尾对象上，并显著提升了时空一致性。

📝 摘要（中文）

本文提出了一种新的驾驶视频生成技术VistaGEN，它能够在保持长视频序列时空一致性的同时，对特定实体（包括3D对象、图像和文本描述）进行细粒度的控制，从而生成多样化的驾驶视频。其核心创新是将多视角视觉-语言推理融入到长驾驶视频生成中。为此，该方法将视觉-语言特征注入到多视角视频生成器中，以实现细粒度的可控性。更重要的是，提出了一个多视角视觉-语言评估器(MV-VLM)，以智能且自动地评估生成内容的时空一致性，从而形成一种新的生成-评估-再生的闭环生成机制。该机制确保了高质量、连贯的输出，有助于创建复杂且可靠的驾驶场景。此外，在闭环生成中，引入了一个对象级细化模块来细化MV-VLM评估的不满意结果，然后将其反馈给视频生成器以进行再生。大量评估表明，VistaGEN实现了具有细粒度可控性的多样化驾驶视频生成结果，尤其是在长尾对象方面，并且比以前的方法具有更好的时空一致性。

🔬 方法详解

问题定义：现有驾驶视频生成方法难以在保持时空一致性的前提下，对视频中的特定对象进行细粒度的控制，尤其是在生成长视频时，这个问题更加突出。这限制了生成多样化和可定制的驾驶场景的能力。现有方法要么缺乏对对象级别控制的能力，要么在长视频生成中出现时空不一致的问题。

核心思路：VistaGEN的核心思路是将多视角视觉-语言推理融入到驾驶视频生成过程中。通过将视觉和语言信息结合，并利用多视角信息进行推理，该方法能够更好地理解场景中的对象关系和时空变化，从而实现对视频内容更精确的控制，并保证生成视频的时空一致性。闭环生成-评估-再生的机制，进一步提升了生成视频的质量。

技术框架：VistaGEN的整体框架包含以下几个主要模块：1) 多视角视频生成器：负责生成初始的驾驶视频。该生成器接受视觉-语言特征作为输入，以实现细粒度的可控性。2) 多视角视觉-语言评估器 (MV-VLM)：用于评估生成视频的时空一致性。MV-VLM能够智能地分析视频中的对象关系和时空变化，并判断其是否符合预期。3) 对象级细化模块：用于细化MV-VLM评估的不满意结果。该模块能够根据MV-VLM的反馈，对视频中的特定对象进行调整和优化。4) 闭环生成机制：将生成器、评估器和细化模块连接起来，形成一个闭环的优化过程。通过不断地生成、评估和再生，该机制能够逐步提升生成视频的质量和一致性。

关键创新：VistaGEN的关键创新在于以下几个方面：1) 多视角视觉-语言推理：将视觉和语言信息结合，并利用多视角信息进行推理，从而实现对视频内容更精确的控制。2) 多视角视觉-语言评估器 (MV-VLM)：能够智能地评估生成视频的时空一致性，并为生成器提供反馈。3) 对象级细化模块：能够根据MV-VLM的反馈，对视频中的特定对象进行调整和优化。4) 闭环生成机制：通过不断地生成、评估和再生，该机制能够逐步提升生成视频的质量和一致性。与现有方法的本质区别在于，VistaGEN能够实现对视频内容更细粒度的控制，并保证生成视频的时空一致性。

关键设计：论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节。这些细节可能在补充材料或后续工作中给出。但可以推测，MV-VLM可能使用了对比学习或相似度度量等方法来评估时空一致性。对象级细化模块可能使用了图像修复或GAN等技术来调整和优化视频中的特定对象。

🖼️ 关键图片

📊 实验亮点

论文通过大量实验证明了VistaGEN的有效性。实验结果表明，VistaGEN能够生成具有细粒度可控性的多样化驾驶视频，尤其是在长尾对象方面表现出色。与现有方法相比，VistaGEN在时空一致性方面取得了显著提升。具体的性能数据和对比基线在论文中进行了详细的展示，证明了VistaGEN的优越性。

🎯 应用场景

VistaGEN技术可应用于自动驾驶仿真、游戏开发、电影制作等领域。在自动驾驶仿真中，可以生成各种复杂和真实的驾驶场景，用于测试和验证自动驾驶算法。在游戏开发中，可以生成逼真的游戏环境和角色动画。在电影制作中，可以生成特效场景和虚拟角色，降低制作成本，提高制作效率。该技术还有助于创建个性化和定制化的驾驶体验，例如，根据用户的喜好生成特定的驾驶路线和场景。

📄 摘要（原文）

Driving video generation has achieved much progress in controllability, video resolution, and length, but fails to support fine-grained object-level controllability for diverse driving videos, while preserving the spatiotemporal consistency, especially in long video generation. In this paper, we present a new driving video generation technique, called VistaGEN, which enables fine-grained control of specific entities, including 3D objects, images, and text descriptions, while maintaining spatiotemporal consistency in long video sequences. Our key innovation is the incorporation of multiview visual-language reasoning into the long driving video generation. To this end, we inject visual-language features into a multiview video generator to enable fine-grained controllability. More importantly, we propose a multiview vision-language evaluator (MV-VLM) to intelligently and automatically evaluate spatiotemporal consistency of the generated content, thus formulating a novel generation-evaluation-regeneration closed-loop generation mechanism. This mechanism ensures high-quality, coherent outputs, facilitating the creation of complex and reliable driving scenarios. Besides, within the closed-loop generation, we introduce an object-level refinement module to refine the unsatisfied results evaluated from the MV-VLM and then feed them back to the video generator for regeneration. Extensive evaluation shows that our VistaGEN achieves diverse driving video generation results with fine-grained controllability, especially for long-tail objects, and much better spatiotemporal consistency than previous approaches.

VistaGEN: Consistent Driving Video Generation with Fine-Grained Control Using Multiview Visual-Language Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理