AttentionHand: Text-driven Controllable Hand Image Generation for 3D Hand Reconstruction in the Wild
作者: Junho Park, Kyeongbo Kong, Suk-Ju Kang
分类: cs.CV, cs.AI
发布日期: 2024-07-25
备注: Accepted by ECCV 2024
💡 一句话要点
AttentionHand:提出文本驱动的可控手部图像生成方法,用于提升野外场景下的3D手部重建。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 手部图像生成 3D手部重建 文本驱动 注意力机制 扩散模型
📋 核心要点
- 现有3D手部重建方法在野外场景中面临数据集匮乏、手部自遮挡和深度模糊等挑战,尤其是在复杂手势下。
- AttentionHand提出了一种文本驱动的可控手部图像生成方法,通过文本提示控制生成与3D手部标签对齐的野外手部图像。
- 实验结果表明,AttentionHand在文本到手部图像生成方面达到SOTA,并提升了3D手部网格重建的性能。
📝 摘要(中文)
本文提出了一种名为AttentionHand的文本驱动可控手部图像生成方法,旨在解决野外场景下3D手部重建数据集匮乏的难题。由于野外场景中存在外观相似性、手部自遮挡和深度模糊等问题,使得复杂姿态(如交互手势)下的3D手部重建更具挑战性。AttentionHand能够生成大量与3D手部标签对齐的野外手部图像,从而缓解室内和室外场景之间的领域差距,构建新的3D手部数据集。该方法利用RGB图像、3D标签生成的手部网格图像、边界框和文本提示四种模态的信息,通过编码阶段嵌入到潜在空间。然后,通过文本注意力机制,突出文本提示中与手部相关的token,并将其应用于潜在嵌入中与手部相关的区域。之后,通过视觉注意力机制,利用基于扩散的流程,以全局和局部手部网格图像为条件,关注嵌入中与手部相关的区域。最后,解码阶段将最终特征解码为新的手部图像,这些图像与给定的手部网格图像和文本提示对齐。实验结果表明,AttentionHand在文本到手部图像生成模型中取得了最先进的性能,并且通过使用AttentionHand生成的手部图像进行额外训练,提高了3D手部网格重建的性能。
🔬 方法详解
问题定义:论文旨在解决野外场景下3D手部重建因缺乏高质量数据集而面临的挑战。现有方法难以处理手部自遮挡、外观相似性和深度模糊等问题,尤其是在复杂交互手势下,导致重建精度较低。
核心思路:论文的核心思路是利用文本驱动的可控手部图像生成方法,合成大量与3D手部标签对齐的野外手部图像,从而扩充训练数据集,缓解领域差异,提升3D手部重建模型的泛化能力。通过文本提示控制生成图像的内容,从而实现对数据集的有效控制。
技术框架:AttentionHand包含编码、文本注意力、视觉注意力和解码四个主要阶段。首先,编码阶段将RGB图像、手部网格图像、边界框和文本提示嵌入到潜在空间。然后,文本注意力阶段利用文本提示中的手部相关token来突出潜在嵌入中与手部相关的区域。接着,视觉注意力阶段利用全局和局部手部网格图像作为条件,进一步关注嵌入中与手部相关的区域。最后,解码阶段将最终特征解码为新的手部图像。
关键创新:该方法最重要的创新点在于结合了文本提示和手部网格图像,通过注意力机制引导图像生成过程,从而实现对生成手部图像的精细控制。与传统的图像生成方法相比,AttentionHand能够更好地保证生成图像与3D手部标签的一致性,并生成更符合文本描述的手部图像。
关键设计:文本注意力模块利用Transformer结构,计算文本token与潜在特征之间的注意力权重,从而突出与手部相关的特征。视觉注意力模块则利用扩散模型,以手部网格图像为条件,逐步优化生成图像的细节。损失函数包括对抗损失、感知损失和L1损失,用于保证生成图像的真实性、感知质量和与手部网格图像的一致性。具体的网络结构和参数设置在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
AttentionHand在文本到手部图像生成任务上取得了state-of-the-art的性能(具体指标未知)。通过使用AttentionHand生成的数据集进行训练,3D手部网格重建的性能得到了显著提升(具体提升幅度未知)。这些结果表明,AttentionHand能够有效地生成高质量的手部图像,并缓解数据匮乏问题。
🎯 应用场景
该研究成果可应用于人机交互、虚拟现实、增强现实等领域。通过生成逼真的手部图像,可以提升用户在虚拟环境中的沉浸感和交互体验。此外,该方法还可以用于训练更鲁棒的3D手部重建模型,从而提高在野外场景下的手部姿态估计精度,为智能监控、机器人控制等应用提供技术支持。
📄 摘要(原文)
Recently, there has been a significant amount of research conducted on 3D hand reconstruction to use various forms of human-computer interaction. However, 3D hand reconstruction in the wild is challenging due to extreme lack of in-the-wild 3D hand datasets. Especially, when hands are in complex pose such as interacting hands, the problems like appearance similarity, self-handed occclusion and depth ambiguity make it more difficult. To overcome these issues, we propose AttentionHand, a novel method for text-driven controllable hand image generation. Since AttentionHand can generate various and numerous in-the-wild hand images well-aligned with 3D hand label, we can acquire a new 3D hand dataset, and can relieve the domain gap between indoor and outdoor scenes. Our method needs easy-to-use four modalities (i.e, an RGB image, a hand mesh image from 3D label, a bounding box, and a text prompt). These modalities are embedded into the latent space by the encoding phase. Then, through the text attention stage, hand-related tokens from the given text prompt are attended to highlight hand-related regions of the latent embedding. After the highlighted embedding is fed to the visual attention stage, hand-related regions in the embedding are attended by conditioning global and local hand mesh images with the diffusion-based pipeline. In the decoding phase, the final feature is decoded to new hand images, which are well-aligned with the given hand mesh image and text prompt. As a result, AttentionHand achieved state-of-the-art among text-to-hand image generation models, and the performance of 3D hand mesh reconstruction was improved by additionally training with hand images generated by AttentionHand.