Visual Persona: Foundation Model for Full-Body Human Customization
作者: Jisu Nam, Soowon Son, Zhan Xu, Jing Shi, Difan Liu, Feng Liu, Aashish Misraa, Seungryong Kim, Yang Zhou
分类: cs.CV
发布日期: 2025-03-19 (更新: 2025-03-24)
备注: CVPR 2025, Project page is available at https://cvlab-kaist.github.io/Visual-Persona
💡 一句话要点
Visual Persona:用于全身人体定制的基座模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 全身人体定制 基座模型 扩散模型 Transformer 视觉-语言模型
📋 核心要点
- 现有方法在人体定制任务中,主要关注面部身份保持,忽略了全身外观的细节和与文本描述的对齐。
- Visual Persona通过Transformer编码器-解码器架构,将人体图像分解为区域特征,并投影到身份嵌入中,从而精确控制全身外观。
- Visual Persona在全身人体定制任务中,生成图像质量超越现有方法,并在各种下游任务中展现出强大的泛化能力。
📝 摘要(中文)
我们提出了Visual Persona,一个用于文本到图像全身人体定制的基座模型。给定单张真实场景中的人体图像,该模型能够根据文本描述生成该个体各种不同的图像。与以往仅关注面部身份保持的方法不同,我们的方法捕捉了详细的全身外观,并使之与文本描述中的身体结构和场景变化对齐。训练该模型需要大规模的配对人体数据,即每个个体包含多张具有一致全身身份的图像,而获取这种数据非常困难。为了解决这个问题,我们提出了一个数据整理流程,利用视觉-语言模型来评估全身外观的一致性,从而得到了Visual Persona-500K数据集,该数据集包含10万个独特身份的58万张配对人体图像。为了实现精确的外观迁移,我们引入了一种适用于预训练文本到图像扩散模型的Transformer编码器-解码器架构,该架构将输入图像增强为不同的身体区域,将这些区域编码为局部外观特征,并将它们独立地投影到密集的身份嵌入中,从而调节扩散模型以合成定制图像。Visual Persona始终优于现有方法,能够从真实场景输入生成高质量的定制图像。大量的消融研究验证了设计选择,并且我们证明了Visual Persona在各种下游任务中的多功能性。
🔬 方法详解
问题定义:论文旨在解决文本驱动的全身人体定制问题,即给定一张人物图像和一段文本描述,生成该人物在指定场景和姿态下的全身图像。现有方法主要集中在面部身份保持,忽略了全身外观的细节,并且难以保证生成图像与文本描述在身体结构和场景上的对齐。获取大规模的、具有一致全身身份的配对人体数据也是一个挑战。
核心思路:论文的核心思路是利用视觉-语言模型进行数据清洗,构建大规模高质量的训练数据集。同时,设计一个Transformer编码器-解码器架构,将输入图像分解为不同的身体区域,提取局部外观特征,并将其投影到密集的身份嵌入中,从而实现对全身外观的精确控制。这种设计能够更好地捕捉全身外观的细节,并保证生成图像与文本描述的一致性。
技术框架:Visual Persona的整体框架包含以下几个主要模块:1) 数据集构建:利用视觉-语言模型评估全身外观一致性,构建Visual Persona-500K数据集。2) 特征提取:使用Transformer编码器提取输入图像不同身体区域的局部外观特征。3) 身份嵌入:将提取的局部外观特征投影到密集的身份嵌入空间。4) 图像生成:利用预训练的文本到图像扩散模型,并以文本描述和身份嵌入作为条件,生成定制的全身人体图像。
关键创新:论文的关键创新点在于:1) 提出了一个基于视觉-语言模型的数据整理流程,用于构建大规模高质量的配对人体数据集。2) 设计了一个Transformer编码器-解码器架构,能够将输入图像分解为不同的身体区域,并提取局部外观特征,从而实现对全身外观的精确控制。3) 将局部外观特征投影到密集的身份嵌入空间,从而更好地保持个体身份信息。
关键设计:在数据整理流程中,使用了CLIP等视觉-语言模型来评估全身外观的一致性。Transformer编码器-解码器架构的具体参数设置未知。扩散模型使用了预训练的文本到图像扩散模型,具体模型类型未知。损失函数的设计细节未知。
🖼️ 关键图片
📊 实验亮点
Visual Persona在全身人体定制任务中,生成图像质量超越现有方法。通过消融实验验证了各个模块的有效性。Visual Persona-500K数据集的构建为相关研究提供了宝贵的数据资源。具体的性能数据和对比基线在摘要中未明确给出,属于未知信息。
🎯 应用场景
Visual Persona在虚拟形象定制、游戏角色生成、服装设计、虚拟试穿等领域具有广泛的应用前景。该技术可以帮助用户快速生成个性化的虚拟形象,提升用户体验。未来,该技术可以进一步扩展到视频生成、动画制作等领域,为内容创作提供更多可能性。
📄 摘要(原文)
We introduce Visual Persona, a foundation model for text-to-image full-body human customization that, given a single in-the-wild human image, generates diverse images of the individual guided by text descriptions. Unlike prior methods that focus solely on preserving facial identity, our approach captures detailed full-body appearance, aligning with text descriptions for body structure and scene variations. Training this model requires large-scale paired human data, consisting of multiple images per individual with consistent full-body identities, which is notoriously difficult to obtain. To address this, we propose a data curation pipeline leveraging vision-language models to evaluate full-body appearance consistency, resulting in Visual Persona-500K, a dataset of 580k paired human images across 100k unique identities. For precise appearance transfer, we introduce a transformer encoder-decoder architecture adapted to a pre-trained text-to-image diffusion model, which augments the input image into distinct body regions, encodes these regions as local appearance features, and projects them into dense identity embeddings independently to condition the diffusion model for synthesizing customized images. Visual Persona consistently surpasses existing approaches, generating high-quality, customized images from in-the-wild inputs. Extensive ablation studies validate design choices, and we demonstrate the versatility of Visual Persona across various downstream tasks.