VideoWeaver: Multimodal Multi-View Video-to-Video Transfer for Embodied Agents
作者: George Eskandar, Fengyi Shen, Mohammad Altillawi, Dong Chen, Yang Bai, Liudi Yang, Ziyuan Liu
分类: cs.CV
发布日期: 2026-03-26
💡 一句话要点
VideoWeaver:面向具身智能体的多模态多视角视频到视频转换框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频到视频转换 多视角学习 具身智能体 扩散模型 潜在空间 机器人学习 世界随机化
📋 核心要点
- 现有视频到视频转换模型无法处理多视角数据,导致视角间不一致,且计算复杂度高,难以扩展。
- VideoWeaver通过将多视角数据嵌入共享4D潜在空间,并利用扩散模型在不同时间步长训练视角,实现视角一致性。
- 实验表明,VideoWeaver在单视角任务上表现优秀,并首次实现了物理和风格一致的多视角视频转换。
📝 摘要(中文)
本文提出VideoWeaver,首个多模态多视角视频到视频(V2V)转换框架。现有V2V转换方法通常仅处理单视角视频,而具身智能体任务通常需要多视角同步摄像头数据进行策略学习。直接将单视角模型应用于每个摄像头会导致视角间外观不一致,且标准Transformer架构因跨视角注意力机制的二次复杂度而难以扩展到多视角场景。VideoWeaver首先训练为单视角基于流的V2V模型。为了扩展到多视角,本文提出将所有视角嵌入到一个共享的4D潜在空间中,该空间由前馈空间基础模型Pi3导出。这鼓励了视角间外观一致性,即使在宽基线和动态相机运动下也是如此。为了扩展到固定数量的摄像头之外,本文在不同的扩散时间步长训练视角,使模型能够学习联合和条件视角分布。这反过来又允许在现有视角的基础上自回归地合成新的视角。实验表明,在单视角转换基准测试中,VideoWeaver的性能优于或与最先进水平相当,并且首次实现了物理和风格上一致的多视角转换,包括对机器人学习的世界随机化至关重要的具有挑战性的自我中心和异构相机设置。
🔬 方法详解
问题定义:论文旨在解决具身智能体在多视角视频到视频转换任务中的挑战。现有方法主要集中在单视角视频处理,无法保证多视角视频之间的一致性。此外,直接应用Transformer架构进行跨视角建模会导致计算量随视角数量呈二次方增长,难以扩展到实际应用场景。因此,如何高效且一致地进行多视角视频转换是本论文要解决的核心问题。
核心思路:论文的核心思路是将多视角视频数据映射到一个共享的潜在空间中,从而实现视角间的一致性。具体来说,利用一个预训练的空间基础模型(Pi3)将每个视角的视频帧编码到4D潜在空间。然后,通过在不同的扩散时间步长上训练不同的视角,使得模型能够学习到视角之间的联合分布和条件分布,从而实现自回归的视角合成。
技术框架:VideoWeaver的整体框架包括以下几个主要模块:1) 单视角V2V模型:首先训练一个基于流的单视角V2V模型作为基础。2) 空间基础模型(Pi3):利用Pi3将每个视角的视频帧编码到共享的4D潜在空间。3) 多视角扩散模型:在不同的扩散时间步长上训练不同的视角,学习视角之间的联合分布和条件分布。4) 自回归视角合成:基于已有的视角,自回归地生成新的视角。
关键创新:论文的关键创新在于:1) 提出了将多视角视频嵌入到共享4D潜在空间的方法,从而保证了视角间的一致性。2) 利用扩散模型在不同的时间步长上训练视角,实现了视角的自回归合成,并解决了传统Transformer架构在多视角场景下的计算复杂度问题。3) 首次实现了物理和风格上一致的多视角视频转换,为机器人学习的世界随机化提供了新的解决方案。
关键设计:在训练过程中,使用了对抗损失函数来提高生成视频的真实感。此外,为了保证视角间的一致性,设计了一个视角一致性损失函数,鼓励不同视角的潜在表示尽可能接近。在扩散模型的训练过程中,使用了不同的时间步长来区分不同的视角,并通过调整时间步长的分布来控制视角合成的顺序。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VideoWeaver在单视角视频转换任务上达到了与现有最佳方法相当或更优的性能。更重要的是,VideoWeaver首次实现了物理和风格上一致的多视角视频转换,包括具有挑战性的自我中心和异构相机设置。这些结果验证了VideoWeaver在多视角视频转换任务上的有效性和优越性。
🎯 应用场景
VideoWeaver在机器人学习领域具有广泛的应用前景。它可以用于生成逼真的多视角模拟环境,从而帮助机器人策略在模拟环境中进行训练,然后迁移到真实世界。此外,它还可以用于增强现实和虚拟现实应用,例如,通过合成新的视角来改善用户的沉浸式体验。该研究对于提升机器人学习的效率和真实感具有重要意义。
📄 摘要(原文)
Recent progress in video-to-video (V2V) translation has enabled realistic resimulation of embodied AI demonstrations, a capability that allows pretrained robot policies to be transferable to new environments without additional data collection. However, prior works can only operate on a single view at a time, while embodied AI tasks are commonly captured from multiple synchronized cameras to support policy learning. Naively applying single-view models independently to each camera leads to inconsistent appearance across views, and standard transformer architectures do not scale to multi-view settings due to the quadratic cost of cross-view attention. We present VideoWeaver, the first multimodal multi-view V2V translation framework. VideoWeaver is initially trained as a single-view flow-based V2V model. To achieve an extension to the multi-view regime, we propose to ground all views in a shared 4D latent space derived from a feed-forward spatial foundation model, namely, Pi3. This encourages view-consistent appearance even under wide baselines and dynamic camera motion. To scale beyond a fixed number of cameras, we train views at distinct diffusion timesteps, enabling the model to learn both joint and conditional view distributions. This in turn allows autoregressive synthesis of new viewpoints conditioned on existing ones. Experiments show superior or similar performance to the state-of-the-art on the single-view translation benchmarks and, for the first time, physically and stylistically consistent multi-view translations, including challenging egocentric and heterogeneous-camera setups central to world randomization for robot learning.