NViST: In the Wild New View Synthesis from a Single Image with Transformers

📄 arXiv: 2312.08568v2 📥 PDF

作者: Wonbong Jang, Lourdes Agapito

分类: cs.CV

发布日期: 2023-12-13 (更新: 2024-04-01)

备注: CVPR 2024, Project page: https://wbjang.github.io/nvist_webpage

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

NViST:基于Transformer的单图像野外场景新视角合成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 新视角合成 单图像重建 Transformer 辐射场 自注意力 真实场景 泛化能力

📋 核心要点

  1. 现有新视角合成方法依赖合成数据或特定场景,泛化能力受限,难以应用于真实世界场景。
  2. NViST利用Transformer直接将单张图像转换为辐射场,通过自注意力处理遮挡,实现新视角合成。
  3. NViST在MVImgNet和ShapeNet上表现出色,展示了其在未见过的物体和类别上的泛化能力。

📝 摘要(中文)

本文提出NViST,一个基于Transformer的模型,用于从单张图像中高效且泛化地合成真实场景的新视角。与许多在合成数据、以物体为中心的场景或以类别特定方式训练的方法不同,NViST在MVImgNet上进行训练,这是一个大规模数据集,包含数百个物体类别的真实世界视频,背景多样。NViST直接将图像输入转换为辐射场,并通过自适应层归一化以相机参数为条件。实际上,NViST利用微调的掩码自编码器(MAE)特征,并通过交叉注意力将其转换为3D输出tokens,同时使用自注意力处理遮挡。为了摆脱以物体为中心的数据集并实现完整的场景合成,NViST采用6自由度相机姿态模型,并且只需要相对姿态,从而无需对训练数据进行规范化,这消除了在随意捕获的数据集上使用它的一个重大障碍。我们在来自MVImgNet的未见过的物体和类别上展示了结果,甚至推广到随意的手机拍摄。我们对MVImgNet和ShapeNet进行了定性和定量评估,表明我们的模型代表了朝着从单张图像实现真正的野外泛化新视角合成迈出的一步。

🔬 方法详解

问题定义:现有单图像新视角合成方法通常依赖于合成数据或特定类别的对象,泛化能力较差,难以直接应用于真实世界中随意拍摄的图像。这些方法往往需要对训练数据进行规范化,限制了其在非受控环境下的应用。因此,如何从单张真实世界的图像中,合成高质量、视角一致的新视角图像,是一个具有挑战性的问题。

核心思路:NViST的核心思路是利用Transformer强大的建模能力,直接将单张图像编码为辐射场,并以相机参数为条件进行新视角合成。通过引入自注意力机制,模型能够有效地处理场景中的遮挡问题。此外,NViST采用相对相机姿态,避免了对训练数据进行规范化的需求,从而能够更好地适应真实世界中随意拍摄的数据。

技术框架:NViST的整体架构包括以下几个主要模块:1) 特征提取模块:使用预训练的MAE提取输入图像的视觉特征。2) 3D转换模块:通过交叉注意力机制,将图像特征转换为3D输出tokens,这些tokens代表了场景的3D结构信息。3) 辐射场生成模块:利用Transformer解码器,将3D tokens解码为辐射场,并根据给定的相机姿态渲染出新视角图像。4) 自适应层归一化:通过自适应层归一化,将相机参数融入到Transformer的每一层,从而实现相机姿态条件的新视角合成。

关键创新:NViST的关键创新在于:1) 直接将单张图像转换为辐射场,避免了中间的3D重建步骤。2) 利用Transformer的自注意力机制处理遮挡问题,提高了合成质量。3) 采用相对相机姿态,无需对训练数据进行规范化,增强了模型的泛化能力。4) 使用大规模真实世界数据集MVImgNet进行训练,提高了模型在真实场景中的表现。

关键设计:NViST的关键设计包括:1) 使用预训练的MAE作为特征提取器,能够有效地提取图像的视觉特征。2) 采用交叉注意力机制,将图像特征与3D输出tokens进行关联,从而实现从2D到3D的转换。3) 使用Transformer解码器生成辐射场,并采用体积渲染技术合成新视角图像。4) 使用L1损失和感知损失作为训练目标,以提高合成图像的质量和真实感。

📊 实验亮点

NViST在MVImgNet和ShapeNet数据集上进行了评估,结果表明其在未见过的物体和类别上具有良好的泛化能力。定性结果显示,NViST能够合成高质量、视角一致的新视角图像,并且能够有效地处理场景中的遮挡问题。定量结果表明,NViST在PSNR、SSIM等指标上优于现有的单图像新视角合成方法。此外,NViST还展示了在随意手机拍摄图像上的泛化能力,证明了其在真实世界场景中的实用性。

🎯 应用场景

NViST具有广泛的应用前景,例如虚拟现实、增强现实、游戏开发、机器人导航等领域。它可以用于从单张照片生成逼真的3D场景,为用户提供沉浸式的体验。此外,NViST还可以用于机器人导航,帮助机器人理解周围环境,并规划出最佳路径。该研究的未来影响在于推动单图像三维重建和新视角合成技术的发展,使其更加实用和易于应用。

📄 摘要(原文)

We propose NViST, a transformer-based model for efficient and generalizable novel-view synthesis from a single image for real-world scenes. In contrast to many methods that are trained on synthetic data, object-centred scenarios, or in a category-specific manner, NViST is trained on MVImgNet, a large-scale dataset of casually-captured real-world videos of hundreds of object categories with diverse backgrounds. NViST transforms image inputs directly into a radiance field, conditioned on camera parameters via adaptive layer normalisation. In practice, NViST exploits fine-tuned masked autoencoder (MAE) features and translates them to 3D output tokens via cross-attention, while addressing occlusions with self-attention. To move away from object-centred datasets and enable full scene synthesis, NViST adopts a 6-DOF camera pose model and only requires relative pose, dropping the need for canonicalization of the training data, which removes a substantial barrier to it being used on casually captured datasets. We show results on unseen objects and categories from MVImgNet and even generalization to casual phone captures. We conduct qualitative and quantitative evaluations on MVImgNet and ShapeNet to show that our model represents a step forward towards enabling true in-the-wild generalizable novel-view synthesis from a single image. Project webpage: https://wbjang.github.io/nvist_webpage.