MoMaps: Semantics-Aware Scene Motion Generation with Motion Maps
作者: Jiahui Lei, Kyle Genova, George Kopanas, Noah Snavely, Leonidas Guibas
分类: cs.CV
发布日期: 2025-10-13
备注: Accepted at ICCV 2025, project page: https://jiahuilei.com/projects/momap/
💡 一句话要点
提出基于运动地图(MoMap)的语义感知场景运动生成方法,实现从单张图像预测未来3D场景运动。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 运动预测 场景理解 生成模型 扩散模型 运动地图 视频合成
📋 核心要点
- 现有方法难以从真实视频中学习到具有语义和功能意义的3D运动先验,限制了从单张图像预测未来3D场景运动的能力。
- 论文提出了一种像素对齐的运动地图(MoMap)表示,并利用生成图像模型生成MoMap,从而实现高效的运动预测。
- 通过大规模MoMap数据库和扩散模型训练,该方法能够生成合理且语义一致的3D场景运动,并提出了一种新的2D视频合成流程。
📝 摘要(中文)
本文旨在解决从真实视频中学习具有语义和功能意义的3D运动先验这一挑战,从而能够从单张输入图像预测未来的3D场景运动。我们提出了一种新颖的像素对齐的运动地图(MoMap)表示,用于表示3D场景运动,该表示可以从现有的生成图像模型生成,以促进高效和有效的运动预测。为了学习有意义的运动分布,我们从超过50,000个真实视频中创建了一个大规模的MoMap数据库,并在此表示上训练了一个扩散模型。我们的运动生成不仅合成了3D轨迹,还提出了一种新的2D视频合成流程:首先生成一个MoMap,然后相应地扭曲图像并完成扭曲的基于点的渲染。实验结果表明,我们的方法生成了合理且语义一致的3D场景运动。
🔬 方法详解
问题定义:论文旨在解决从单张图像预测未来3D场景运动的问题。现有方法难以从真实视频中学习到具有语义和功能意义的3D运动先验,导致预测的运动不真实或缺乏语义一致性。此外,直接生成3D运动轨迹计算量大,效率较低。
核心思路:论文的核心思路是使用一种新的中间表示——运动地图(MoMap),将3D场景运动编码为像素对齐的图像。MoMap可以从现有的生成图像模型生成,从而简化了运动预测的过程。通过学习MoMap的分布,可以生成合理且语义一致的3D运动。
技术框架:整体框架包含以下几个主要步骤:1) 从真实视频中提取3D场景运动,并将其转换为MoMap表示。2) 构建大规模的MoMap数据库。3) 在MoMap数据库上训练一个扩散模型,学习MoMap的分布。4) 给定一张输入图像,使用训练好的扩散模型生成MoMap。5) 根据生成的MoMap,扭曲输入图像,并完成基于点的渲染,生成未来的视频帧。
关键创新:最重要的技术创新点是提出了MoMap表示。MoMap将3D场景运动编码为像素对齐的图像,使得可以使用现有的生成图像模型来生成运动。与直接生成3D运动轨迹相比,生成MoMap更加高效和有效。此外,MoMap还能够捕捉到场景的语义信息,从而生成语义一致的运动。
关键设计:论文使用扩散模型来学习MoMap的分布。扩散模型是一种强大的生成模型,可以生成高质量的图像。论文使用U-Net作为扩散模型的骨干网络,并使用L1损失和感知损失来训练模型。此外,论文还设计了一种新的基于点的渲染方法,用于将扭曲的图像渲染成最终的视频帧。
📊 实验亮点
实验结果表明,该方法能够生成合理且语义一致的3D场景运动。与现有方法相比,该方法在运动预测的准确性和真实性方面都有显著提升。此外,该方法还提出了一种新的2D视频合成流程,可以生成高质量的视频。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、视频游戏等领域。例如,机器人可以利用该方法预测周围环境的未来运动,从而更好地规划路径和避免碰撞。自动驾驶系统可以利用该方法预测其他车辆和行人的运动,从而提高安全性。视频游戏开发者可以利用该方法生成更加真实和动态的游戏场景。
📄 摘要(原文)
This paper addresses the challenge of learning semantically and functionally meaningful 3D motion priors from real-world videos, in order to enable prediction of future 3D scene motion from a single input image. We propose a novel pixel-aligned Motion Map (MoMap) representation for 3D scene motion, which can be generated from existing generative image models to facilitate efficient and effective motion prediction. To learn meaningful distributions over motion, we create a large-scale database of MoMaps from over 50,000 real videos and train a diffusion model on these representations. Our motion generation not only synthesizes trajectories in 3D but also suggests a new pipeline for 2D video synthesis: first generate a MoMap, then warp an image accordingly and complete the warped point-based renderings. Experimental results demonstrate that our approach generates plausible and semantically consistent 3D scene motion.