PersonaHOI: Effortlessly Improving Personalized Face with Human-Object Interaction Generation
作者: Xinting Hu, Haoran Wang, Jan Eric Lenssen, Bernt Schiele
分类: cs.CV
发布日期: 2025-01-10
🔗 代码/项目: GITHUB
💡 一句话要点
PersonaHOI:融合通用与个性化扩散模型,提升人与物体交互图像生成效果
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)
关键词: 人与物体交互 个性化人脸生成 扩散模型 交叉注意力 空间融合
📋 核心要点
- 现有个性化人脸扩散模型在生成人与物体交互图像时,容易过度关注面部细节,导致全身连贯性不足。
- PersonaHOI通过融合通用StableDiffusion模型和个性化人脸扩散模型,利用交叉注意力约束和空间融合,保持面部细节和全身连贯性。
- 实验结果表明,PersonaHOI在真实性和可扩展性方面优于现有方法,并提出了新的交互对齐指标进行验证。
📝 摘要(中文)
本文提出PersonaHOI,一个无需训练和调优的框架,它融合了一个通用的StableDiffusion模型和一个个性化人脸扩散(PFD)模型,以生成身份一致的人与物体交互(HOI)图像。现有的PFD模型虽然取得了显著进展,但它们往往过度强调面部特征,而牺牲了全身的连贯性。PersonaHOI引入了一个额外的StableDiffusion分支,该分支由面向HOI的文本输入引导。通过在PFD分支中加入交叉注意力约束,并在潜在空间和残差级别进行空间融合,PersonaHOI在确保交互式非面部区域的同时,保留了个性化面部细节。实验结果,通过一种新颖的交互对齐指标验证,证明了PersonaHOI的卓越真实性和可扩展性,为实际的个性化人脸与HOI生成建立了一个新的标准。代码将在https://github.com/JoyHuYY1412/PersonaHOI上提供。
🔬 方法详解
问题定义:论文旨在解决个性化人脸图像生成中,人与物体交互(HOI)场景下全身连贯性不足的问题。现有方法,特别是个性化人脸扩散(PFD)模型,在生成HOI图像时,往往过度关注面部特征,忽略了身体其他部位与物体的自然交互,导致生成图像不真实。
核心思路:PersonaHOI的核心思路是融合通用图像生成模型(Stable Diffusion)的全局上下文理解能力和个性化人脸扩散模型的面部细节保持能力。通过双分支结构,分别处理全局HOI信息和个性化面部信息,并利用交叉注意力机制和空间融合策略,实现二者的有效结合。
技术框架:PersonaHOI包含两个主要分支:个性化人脸扩散(PFD)分支和Stable Diffusion (SD)分支。PFD分支负责生成个性化面部区域,SD分支负责生成包含HOI信息的全身图像。两个分支并行运行,并通过交叉注意力机制进行信息交互。在潜在空间和残差级别,采用空间融合策略,将两个分支的特征进行融合,最终生成高质量的HOI图像。
关键创新:PersonaHOI的关键创新在于:1) 提出了一种双分支融合框架,有效结合了通用图像生成模型和个性化人脸扩散模型的优势;2) 引入了交叉注意力约束,使得PFD分支能够感知HOI信息,从而更好地保持面部细节与全身交互的连贯性;3) 提出了空间融合策略,在潜在空间和残差级别对特征进行融合,进一步提升了生成图像的质量。
关键设计:PersonaHOI的关键设计包括:1) 交叉注意力机制:在PFD分支中,使用SD分支的特征作为query,进行交叉注意力计算,从而引导PFD分支生成与HOI信息相关的面部特征;2) 空间融合策略:在潜在空间和残差级别,使用可学习的权重对两个分支的特征进行加权融合,从而实现特征的有效结合;3) 交互对齐指标:提出了一种新的交互对齐指标,用于评估生成图像中人与物体交互的真实性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PersonaHOI在生成个性化人脸与HOI图像方面取得了显著的提升。通过与现有方法的对比,PersonaHOI在图像质量、身份一致性和交互真实性方面均表现出更优的性能。此外,论文提出的交互对齐指标能够有效评估生成图像中人与物体交互的真实性,为该领域的研究提供了新的评估标准。
🎯 应用场景
PersonaHOI在虚拟形象定制、游戏角色生成、社交媒体内容创作等领域具有广泛的应用前景。它可以帮助用户轻松生成具有个性化面部特征且与物体自然交互的图像,提升用户体验和内容创作效率。未来,该技术有望应用于虚拟现实、增强现实等领域,为用户提供更加沉浸式的交互体验。
📄 摘要(原文)
We introduce PersonaHOI, a training- and tuning-free framework that fuses a general StableDiffusion model with a personalized face diffusion (PFD) model to generate identity-consistent human-object interaction (HOI) images. While existing PFD models have advanced significantly, they often overemphasize facial features at the expense of full-body coherence, PersonaHOI introduces an additional StableDiffusion (SD) branch guided by HOI-oriented text inputs. By incorporating cross-attention constraints in the PFD branch and spatial merging at both latent and residual levels, PersonaHOI preserves personalized facial details while ensuring interactive non-facial regions. Experiments, validated by a novel interaction alignment metric, demonstrate the superior realism and scalability of PersonaHOI, establishing a new standard for practical personalized face with HOI generation. Our code will be available at https://github.com/JoyHuYY1412/PersonaHOI