PairHuman: A High-Fidelity Photographic Dataset for Customized Dual-Person Generation

📄 arXiv: 2511.16712v2 📥 PDF

作者: Ting Pan, Ye Wang, Peiguang Jing, Rui Ma, Zili Yi, Yu Liu

分类: cs.CV, cs.AI

发布日期: 2025-11-20 (更新: 2025-11-24)

备注: 46 pages, 31 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出PairHuman数据集,用于高质量定制双人肖像生成,并提出DHumanDiff基线模型。

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 双人肖像生成 扩散模型 个性化定制 数据集 面部一致性 图像生成 深度学习

📋 核心要点

  1. 高质量双人肖像定制具有巨大潜力,但缺乏基准数据集阻碍了相关研究。
  2. 提出PairHuman数据集,包含多样场景和丰富元数据,并设计DHumanDiff基线模型。
  3. 实验表明,PairHuman数据集和DHumanDiff模型能生成高质量、个性化的双人肖像。

📝 摘要(中文)

本文提出了PairHuman数据集,这是首个专为生成满足高摄影标准的双人肖像而设计的大规模基准数据集。PairHuman数据集包含超过10万张图像,捕捉了各种场景、服装和双人互动,以及丰富的元数据,包括详细的图像描述、人物定位、人体关键点和属性标签。此外,本文还介绍了DHumanDiff,这是一个专门为双人肖像生成而设计的基线模型,它具有增强的面部一致性,并同时平衡了个性化人物生成和语义驱动的场景创建。实验结果表明,本文的数据集和方法能够生成高度定制的肖像,具有卓越的视觉质量,并能满足人类的偏好。

🔬 方法详解

问题定义:现有方法在双人肖像生成中,难以兼顾人物个性化定制和场景的语义一致性,尤其缺乏高质量、大规模的数据集支持,导致生成效果不佳,面部一致性难以保证。

核心思路:通过构建大规模、高质量的PairHuman数据集,为双人肖像生成提供数据基础。同时,设计DHumanDiff模型,在生成过程中显式地考虑面部一致性,并平衡人物个性化和场景语义信息。

技术框架:DHumanDiff模型基于扩散模型,整体框架包含以下几个主要模块:1) 图像编码器:提取输入图像的特征表示;2) 人物特征融合模块:融合两个人物的个性化特征,并保持面部一致性;3) 场景生成模块:根据语义信息生成与人物相协调的背景场景;4) 扩散模型解码器:将融合的人物特征和场景信息解码为最终的双人肖像。

关键创新:1) PairHuman数据集:大规模、高质量的双人肖像数据集,包含丰富的元数据;2) DHumanDiff模型:专门为双人肖像生成设计的扩散模型,通过人物特征融合模块增强面部一致性,并平衡人物个性化和场景语义信息。与现有方法相比,DHumanDiff更关注双人肖像的整体协调性和面部细节。

关键设计:1) 人物特征融合模块:采用注意力机制,学习不同人物特征之间的关联性,并保持面部关键点的对齐;2) 损失函数:除了标准的扩散模型损失外,还引入了面部一致性损失,鼓励生成具有相似面部特征的双人肖像;3) 数据增强:采用多种数据增强技术,如随机裁剪、旋转和颜色抖动,提高模型的泛化能力。

📊 实验亮点

实验结果表明,DHumanDiff模型在PairHuman数据集上取得了显著的性能提升。与现有方法相比,DHumanDiff生成的双人肖像在面部一致性、人物个性化和场景语义一致性方面均有明显改善。用户研究表明,用户更偏好DHumanDiff生成的肖像,认为其视觉质量更高,更符合个人偏好。

🎯 应用场景

PairHuman数据集和DHumanDiff模型在多个领域具有广泛的应用前景,例如:情感记忆的保存、婚礼摄影的规划、虚拟形象的创建、以及个性化定制的艺术创作。该研究成果能够提升双人肖像生成的质量和效率,为用户提供更加便捷和个性化的服务,并推动相关产业的发展。

📄 摘要(原文)

Personalized dual-person portrait customization has considerable potential applications, such as preserving emotional memories and facilitating wedding photography planning. However, the absence of a benchmark dataset hinders the pursuit of high-quality customization in dual-person portrait generation. In this paper, we propose the PairHuman dataset, which is the first large-scale benchmark dataset specifically designed for generating dual-person portraits that meet high photographic standards. The PairHuman dataset contains more than 100K images that capture a variety of scenes, attire, and dual-person interactions, along with rich metadata, including detailed image descriptions, person localization, human keypoints, and attribute tags. We also introduce DHumanDiff, which is a baseline specifically crafted for dual-person portrait generation that features enhanced facial consistency and simultaneously balances in personalized person generation and semantic-driven scene creation. Finally, the experimental results demonstrate that our dataset and method produce highly customized portraits with superior visual quality that are tailored to human preferences. Our dataset is publicly available at https://github.com/annaoooo/PairHuman.