AutoScape: Geometry-Consistent Long-Horizon Scene Generation

作者: Jiacheng Chen, Ziyu Jiang, Mingfu Liang, Bingbing Zhuang, Jong-Chyi Su, Sparsh Garg, Ying Wu, Manmohan Chandraker

分类: cs.CV

发布日期: 2025-10-23

备注: ICCV 2025. Project page: https://auto-scape.github.io

💡 一句话要点

AutoScape：提出几何一致的长时程驾驶场景生成框架

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting)

关键词: 长时程生成 场景生成 RGB-D扩散模型 几何一致性 自动驾驶仿真

📋 核心要点

现有长时程场景生成方法难以保持几何一致性，导致视频不真实。
AutoScape通过RGB-D扩散模型生成几何一致的关键帧，并用warp一致性引导采样。
实验表明，AutoScape生成的20秒驾驶视频在FID和FVD指标上显著优于现有方法。

📝 摘要（中文）

本文提出AutoScape，一个长时程驾驶场景生成框架。其核心是一个新颖的RGB-D扩散模型，该模型迭代地生成稀疏的、几何一致的关键帧，作为场景外观和几何形状的可靠锚点。为了保持长程几何一致性，该模型1)在共享潜在空间中联合处理图像和深度，2)显式地以先前生成的关键帧的现有场景几何形状（即，渲染的点云）为条件，并且3)利用warp一致性引导来控制采样过程。给定高质量的RGB-D关键帧，视频扩散模型在它们之间进行插值，以生成密集且连贯的视频帧。AutoScape生成超过20秒的逼真且几何一致的驾驶视频，将长时程FID和FVD分数分别比现有技术水平提高了48.6％和43.0％。

🔬 方法详解

问题定义：现有长时程驾驶场景生成方法难以维持长时间的几何一致性，导致生成的视频出现扭曲、变形等不真实现象。这是因为长时程生成需要对场景的结构和运动进行建模，而现有方法往往缺乏对几何信息的有效利用和约束。

核心思路：AutoScape的核心思路是首先生成稀疏但几何一致的关键帧，然后利用这些关键帧作为锚点，通过视频扩散模型插值生成中间帧。通过在关键帧生成阶段保证几何一致性，可以有效地避免长时程生成中的几何漂移问题。

技术框架：AutoScape框架包含两个主要阶段：1) RGB-D关键帧生成阶段：使用RGB-D扩散模型迭代生成稀疏的关键帧，并显式地以先前生成的关键帧的几何信息（点云）为条件。2) 视频插值阶段：使用视频扩散模型在关键帧之间进行插值，生成密集且连贯的视频帧。

关键创新：AutoScape的关键创新在于RGB-D扩散模型和warp一致性引导。RGB-D扩散模型能够在共享潜在空间中联合处理图像和深度信息，从而保证生成关键帧的几何一致性。warp一致性引导则通过约束相邻关键帧之间的光流一致性，进一步提高了几何一致性。

关键设计：RGB-D扩散模型采用U-Net结构，并使用Transformer进行注意力建模。损失函数包括图像重建损失、深度重建损失和warp一致性损失。warp一致性损失通过计算相邻关键帧之间的光流，并约束光流的反向warp误差来实现。

📊 实验亮点

AutoScape在长时程驾驶场景生成任务上取得了显著的性能提升。实验结果表明，AutoScape生成的20秒驾驶视频在FID和FVD指标上分别比现有最佳方法提高了48.6%和43.0%。这些结果表明，AutoScape能够生成更逼真、更几何一致的驾驶场景。

🎯 应用场景

AutoScape具有广泛的应用前景，例如自动驾驶仿真、游戏场景生成、电影特效制作等。它可以用于生成逼真的驾驶场景，帮助自动驾驶系统进行训练和测试。此外，AutoScape还可以用于创建各种虚拟环境，为游戏和电影制作提供丰富的素材。

📄 摘要（原文）

This paper proposes AutoScape, a long-horizon driving scene generation framework. At its core is a novel RGB-D diffusion model that iteratively generates sparse, geometrically consistent keyframes, serving as reliable anchors for the scene's appearance and geometry. To maintain long-range geometric consistency, the model 1) jointly handles image and depth in a shared latent space, 2) explicitly conditions on the existing scene geometry (i.e., rendered point clouds) from previously generated keyframes, and 3) steers the sampling process with a warp-consistent guidance. Given high-quality RGB-D keyframes, a video diffusion model then interpolates between them to produce dense and coherent video frames. AutoScape generates realistic and geometrically consistent driving videos of over 20 seconds, improving the long-horizon FID and FVD scores over the prior state-of-the-art by 48.6\% and 43.0\%, respectively.

AutoScape: Geometry-Consistent Long-Horizon Scene Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册