SeqTex: Generate Mesh Textures in Video Sequence
作者: Ze Yuan, Xin Yu, Yangtian Sun, Yuan-Chen Guo, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
分类: cs.CV, cs.AI, cs.GR
发布日期: 2025-07-06
💡 一句话要点
SeqTex:提出一种视频序列中的网格纹理生成方法,实现端到端UV纹理映射。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D纹理生成 UV纹理贴图 视频序列 序列生成 几何感知注意力 预训练模型 端到端学习
📋 核心要点
- 现有方法依赖图像生成模型微调,生成多视角图像后需后处理得到UV纹理,易累积误差且空间不一致。
- SeqTex将UV纹理生成视为序列生成问题,利用预训练视频模型的视觉先验,直接生成完整UV纹理贴图。
- SeqTex通过解耦分支、几何感知注意力、自适应token分辨率等创新,在纹理一致性、几何对齐和泛化性上均有提升。
📝 摘要(中文)
训练原生的3D纹理生成模型仍然是一个基础但具有挑战性的问题,这主要是由于缺乏大规模、高质量的3D纹理数据集。这种稀缺性阻碍了模型对真实世界场景的泛化。为了解决这个问题,大多数现有方法微调基础图像生成模型,以利用它们学习到的视觉先验。然而,这些方法通常只生成多视角图像,并依赖于后处理来生成UV纹理贴图——这是现代图形管线中的一个基本表示。这种两阶段管线通常会遭受误差累积和3D表面上的空间不一致性。在本文中,我们介绍SeqTex,这是一种新颖的端到端框架,它利用预训练视频基础模型中编码的视觉知识来直接生成完整的UV纹理贴图。与之前孤立地建模UV纹理分布的方法不同,SeqTex将该任务重新定义为序列生成问题,使模型能够学习多视角渲染和UV纹理的联合分布。这种设计有效地将视频基础模型中一致的图像空间先验转移到UV域。为了进一步提高性能,我们提出了一些架构创新:解耦的多视角和UV分支设计、几何感知注意力以引导跨域特征对齐,以及自适应token分辨率以在保持计算效率的同时保留精细的纹理细节。总之,这些组件使SeqTex能够充分利用预训练的视频先验,并合成高保真度的UV纹理贴图,而无需后处理。大量实验表明,SeqTex在图像条件和文本条件3D纹理生成任务上都取得了最先进的性能,具有卓越的3D一致性、纹理-几何对齐和真实世界泛化能力。
🔬 方法详解
问题定义:现有3D纹理生成方法依赖于图像生成模型,通过生成多视角图像再进行后处理得到UV纹理贴图。这种两阶段方法存在误差累积的问题,并且难以保证3D表面纹理的空间一致性。缺乏大规模高质量的3D纹理数据集也限制了模型的泛化能力。
核心思路:SeqTex的核心思路是将3D纹理生成问题转化为一个序列生成问题,利用预训练视频基础模型中蕴含的视觉知识,直接生成完整的UV纹理贴图。通过学习多视角渲染和UV纹理的联合分布,将视频模型中图像空间的一致性先验迁移到UV域,从而避免了传统方法中的误差累积和空间不一致性问题。
技术框架:SeqTex的整体框架包含以下几个主要模块:1) 多视角分支:处理多视角图像输入,提取图像特征。2) UV分支:直接生成UV纹理贴图。3) 几何感知注意力模块:利用几何信息引导多视角特征和UV特征的对齐。4) 自适应Token分辨率模块:在保持计算效率的同时,保留精细的纹理细节。模型首先通过多视角分支提取多视角图像的特征,然后通过几何感知注意力模块将这些特征与UV分支的特征进行对齐,最后由UV分支生成最终的UV纹理贴图。
关键创新:SeqTex的关键创新在于:1) 端到端UV纹理生成:直接生成UV纹理贴图,避免了后处理步骤。2) 序列生成建模:将纹理生成视为序列生成问题,利用视频模型的时序信息。3) 几何感知注意力:利用几何信息引导跨域特征对齐。4) 自适应Token分辨率:平衡计算效率和纹理细节。与现有方法相比,SeqTex能够更有效地利用预训练模型的知识,生成更高质量的UV纹理贴图。
关键设计:SeqTex的关键设计包括:1) 解耦的多视角和UV分支:允许模型独立地学习图像和UV纹理的特征。2) 几何感知注意力模块:使用可学习的注意力权重,根据几何信息对多视角特征进行加权。3) 自适应Token分辨率模块:根据纹理的复杂程度动态调整Token的数量。4) 损失函数:使用了多种损失函数,包括图像重建损失、UV纹理损失和对抗损失,以提高生成纹理的质量和真实感。
🖼️ 关键图片
📊 实验亮点
SeqTex在图像条件和文本条件3D纹理生成任务上均取得了state-of-the-art的性能。实验结果表明,SeqTex生成的纹理具有更好的3D一致性、纹理-几何对齐和真实世界泛化能力。相较于现有方法,SeqTex能够生成更高质量、更逼真的3D模型纹理。
🎯 应用场景
SeqTex生成的UV纹理贴图可广泛应用于游戏开发、电影制作、虚拟现实和增强现实等领域。该技术能够自动生成高质量的3D模型纹理,减少人工成本,提高生产效率。未来,SeqTex有望进一步扩展到更复杂的场景和模型,例如动态纹理生成和材质编辑。
📄 摘要(原文)
Training native 3D texture generative models remains a fundamental yet challenging problem, largely due to the limited availability of large-scale, high-quality 3D texture datasets. This scarcity hinders generalization to real-world scenarios. To address this, most existing methods finetune foundation image generative models to exploit their learned visual priors. However, these approaches typically generate only multi-view images and rely on post-processing to produce UV texture maps -- an essential representation in modern graphics pipelines. Such two-stage pipelines often suffer from error accumulation and spatial inconsistencies across the 3D surface. In this paper, we introduce SeqTex, a novel end-to-end framework that leverages the visual knowledge encoded in pretrained video foundation models to directly generate complete UV texture maps. Unlike previous methods that model the distribution of UV textures in isolation, SeqTex reformulates the task as a sequence generation problem, enabling the model to learn the joint distribution of multi-view renderings and UV textures. This design effectively transfers the consistent image-space priors from video foundation models into the UV domain. To further enhance performance, we propose several architectural innovations: a decoupled multi-view and UV branch design, geometry-informed attention to guide cross-domain feature alignment, and adaptive token resolution to preserve fine texture details while maintaining computational efficiency. Together, these components allow SeqTex to fully utilize pretrained video priors and synthesize high-fidelity UV texture maps without the need for post-processing. Extensive experiments show that SeqTex achieves state-of-the-art performance on both image-conditioned and text-conditioned 3D texture generation tasks, with superior 3D consistency, texture-geometry alignment, and real-world generalization.