ARCON: Advancing Auto-Regressive Continuation for Driving Videos

作者: Ruibo Ming, Jingwei Wu, Zhewei Huang, Zhuoxuan Ju, Jianming HU, Lihui Peng, Shuchang Zhou

分类: cs.CV

发布日期: 2024-12-04 (更新: 2025-02-26)

💡 一句话要点

ARCON：提出一种用于自动驾驶视频延续的自回归方案，提升长时视频生成一致性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频延续 自回归模型 大型视觉模型 自动驾驶 语义分割 光流估计 视频生成 世界模型

📋 核心要点

现有视频生成方法难以保证长时视频生成的一致性，尤其是在自动驾驶等复杂场景下。
ARCON方案通过交替生成语义和RGB tokens，使模型能够显式学习视频的结构化信息，从而提升生成一致性。
实验表明，ARCON在自动驾驶场景下能够生成高质量、长时一致的视频，并利用光流增强视觉效果。

📝 摘要（中文）

本文探索了大型视觉模型（LVM）在视频延续任务中的应用，该任务对于构建世界模型和预测未来帧至关重要。我们提出了一种名为ARCON的方案，它交替生成语义和RGB tokens，使LVM能够显式地学习高层次的结构化视频信息。实验表明，在没有特殊设计的情况下，生成的RGB图像和语义图具有高度一致性。此外，我们采用了一种基于光流的纹理拼接方法来增强视觉质量。在自动驾驶场景中的实验表明，我们的模型能够持续生成长视频。

🔬 方法详解

问题定义：论文旨在解决自动驾驶场景下长视频延续问题。现有方法在生成长视频时，容易出现内容不一致、画面抖动等问题，难以保证视频的连贯性和真实感。这些问题限制了世界模型的构建和未来帧预测的准确性。

核心思路：ARCON的核心思路是利用大型视觉模型（LVM）的强大表征能力，通过交替生成语义tokens和RGB tokens，显式地建模视频的结构化信息。语义tokens捕捉视频的高层语义信息，RGB tokens负责生成具体的图像细节。这种交替生成的方式，能够使模型更好地理解视频内容，从而生成更连贯、更真实的视频。

技术框架：ARCON的整体框架包含以下几个主要模块：1) 语义编码器：将输入视频帧编码为语义tokens；2) RGB编码器：将输入视频帧编码为RGB tokens；3) 自回归生成器：交替生成语义tokens和RGB tokens，预测未来帧；4) 纹理拼接模块：利用光流信息，对生成的RGB图像进行纹理拼接，提升视觉质量。整个流程首先对输入视频进行编码，然后通过自回归生成器预测未来帧，最后利用纹理拼接模块提升视觉效果。

关键创新：ARCON的关键创新在于交替生成语义和RGB tokens的自回归生成方案。与传统的直接生成RGB图像的方法相比，ARCON能够显式地建模视频的结构化信息，从而提升生成视频的一致性和真实感。此外，ARCON还引入了基于光流的纹理拼接模块，进一步提升了生成视频的视觉质量。

关键设计：在ARCON中，语义编码器和RGB编码器可以使用现有的视觉模型，例如ViT或CNN。自回归生成器可以使用Transformer架构，通过注意力机制建模tokens之间的关系。纹理拼接模块利用光流信息，将相邻帧的纹理信息进行融合，从而减少画面抖动，提升视觉效果。损失函数可以包括重构损失、对抗损失等，用于约束生成视频的质量。

🖼️ 关键图片

📊 实验亮点

论文在自动驾驶场景下进行了实验，结果表明ARCON能够生成高质量、长时一致的视频。与基线方法相比，ARCON在视频生成质量和一致性方面均有显著提升。通过定量指标和视觉效果对比，验证了ARCON的有效性。此外，光流纹理拼接模块进一步提升了生成视频的视觉质量。

🎯 应用场景

ARCON在自动驾驶领域具有广泛的应用前景，例如可以用于自动驾驶仿真、未来场景预测、以及驾驶辅助系统。通过预测未来视频帧，ARCON可以帮助自动驾驶系统更好地理解周围环境，从而做出更安全、更合理的决策。此外，ARCON还可以应用于游戏、电影等领域，用于生成高质量的视频内容。

📄 摘要（原文）

Recent advancements in auto-regressive large language models (LLMs) have led to their application in video generation. This paper explores the use of Large Vision Models (LVMs) for video continuation, a task essential for building world models and predicting future frames. We introduce ARCON, a scheme that alternates between generating semantic and RGB tokens, allowing the LVM to explicitly learn high-level structural video information. We find high consistency in the RGB images and semantic maps generated without special design. Moreover, we employ an optical flow-based texture stitching method to enhance visual quality. Experiments in autonomous driving scenarios show that our model can consistently generate long videos.

ARCON: Advancing Auto-Regressive Continuation for Driving Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理