AHS: Adaptive Head Synthesis via Synthetic Data Augmentations

📄 arXiv: 2604.15857v1 📥 PDF

作者: Taewoong Kang, Hyojin Jang, Sohyun Jeong, Seunggi Moon, Gihwi Kim, Hoon Jin Jung, Jaegul choo

分类: cs.CV

发布日期: 2026-04-17

备注: CVPR 2026, Project Page : https://keh0t0.github.io/AHS/


💡 一句话要点

提出AHS,通过合成数据增强实现自适应头部合成,解决现有头部替换方法在真实场景中的局限性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 头部替换 合成数据增强 自监督学习 人脸重演 图像融合

📋 核心要点

  1. 现有头部替换方法依赖于有限视角的面部裁剪数据,难以处理真实场景中多样的头部姿势、表情和发型。
  2. AHS通过头部重演的合成数据增强策略,克服了自监督训练的限制,提升了模型在各种表情和姿态下的泛化能力。
  3. 实验表明,AHS在真实场景中表现优异,能够生成视觉连贯、保持身份和表情保真度的头部替换结果。

📝 摘要(中文)

本文提出了一种自适应头部合成(AHS)方法,旨在解决现有头部替换技术在真实场景中的局限性。现有方法主要依赖于以面部为中心的裁剪数据,视角有限,难以处理多样的头部表情、发型以及面部区域外的自然融合。AHS能够有效处理包含不同头部姿势和表情的全身图像。该方法引入了一种新颖的头部重演合成数据增强策略,克服了自监督训练的约束,增强了在各种面部表情和方向上的泛化能力,而无需配对训练数据。实验结果表明,AHS在具有挑战性的真实场景中表现出色,生成视觉上连贯的结果,并在各种头部方向和发型下保持身份和表情的保真度。AHS在保持面部身份的同时,对剧烈的表情变化表现出极强的鲁棒性,并在显著的头部姿势变化时忠实地保留配饰。

🔬 方法详解

问题定义:现有头部替换方法主要依赖于以面部为中心的裁剪图像,视角范围受限,难以处理真实场景中头部姿势、表情和发型的多样性。此外,这些方法在面部区域之外的融合效果不佳,导致合成结果不自然。因此,需要一种能够处理全身图像,并能适应各种头部姿势和表情的头部替换方法。

核心思路:AHS的核心思路是利用合成数据增强来扩充训练数据,从而提升模型在真实场景中的泛化能力。具体来说,通过头部重演技术,将一个人的头部表情和姿势迁移到另一个人的身体上,生成大量的合成训练样本。这些合成样本覆盖了各种头部姿势、表情和发型,从而帮助模型学习到更加鲁棒的头部替换特征。

技术框架:AHS的整体框架包括以下几个主要模块:1) 头部重演模块:负责将源图像的头部表情和姿势迁移到目标图像的身体上,生成合成图像。2) 头部融合模块:负责将合成的头部与目标图像的身体进行无缝融合,生成最终的头部替换结果。3) 判别器模块:用于判别生成的头部替换结果是否真实,从而指导模型的训练。整个框架采用自监督学习的方式进行训练,无需配对的训练数据。

关键创新:AHS最重要的技术创新点在于提出了头部重演的合成数据增强策略。与传统的图像增强方法不同,该策略能够生成具有语义意义的合成样本,从而更加有效地提升模型的泛化能力。此外,AHS还采用了自监督学习的方式进行训练,避免了对大量配对训练数据的依赖。

关键设计:在头部重演模块中,使用了3D人脸模型来估计源图像和目标图像的头部姿势和表情参数。然后,通过调整3D人脸模型的参数,将源图像的头部表情和姿势迁移到目标图像上。在头部融合模块中,使用了泊松融合算法来将合成的头部与目标图像的身体进行无缝融合。损失函数包括对抗损失、身份保持损失和表情保持损失,用于保证生成结果的真实性、身份一致性和表情一致性。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AHS在真实场景中取得了显著的性能提升。与现有方法相比,AHS能够生成视觉上更加连贯、身份和表情保真度更高的头部替换结果。尤其是在头部姿势和表情变化剧烈的情况下,AHS仍然能够保持较好的性能。具体性能数据未知,但论文强调了AHS在主观视觉效果上的优越性。

🎯 应用场景

AHS技术可广泛应用于数字媒体内容创作、虚拟形象定制、视频会议、娱乐等领域。例如,用户可以使用AHS将自己的头部替换到电影角色或游戏人物的身体上,创建个性化的数字内容。此外,AHS还可以用于改善视频会议的体验,例如,通过调整头部姿势和表情,使视频通话更加自然和生动。该技术具有巨大的商业价值和应用前景。

📄 摘要(原文)

Recent digital media advancements have created increasing demands for sophisticated portrait manipulation techniques, particularly head swapping, where one's head is seamlessly integrated with another's body. However, current approaches predominantly rely on face-centered cropped data with limited view angles, significantly restricting their real-world applicability. They struggle with diverse head expressions, varying hairstyles, and natural blending beyond facial regions. To address these limitations, we propose Adaptive Head Synthesis (AHS), which effectively handles full upper-body images with varied head poses and expressions. AHS incorporates a novel head reenacted synthetic data augmentation strategy to overcome self-supervised training constraints, enhancing generalization across diverse facial expressions and orientations without requiring paired training data. Comprehensive experiments demonstrate that AHS achieves superior performance in challenging real-world scenarios, producing visually coherent results that preserve identity and expression fidelity across various head orientations and hairstyles. Notably, AHS shows exceptional robustness in maintaining facial identity while drastic expression changes and faithfully preserving accessories while significant head pose variations.