LaTo: Landmark-tokenized Diffusion Transformer for Fine-grained Human Face Editing
作者: Zhenghao Zhang, Ziying Zhang, Junchao Liao, Xiangyu Meng, Qiang Hu, Siyu Zhu, Xiaoyun Zhang, Long Qin, Weizhi Wang
分类: cs.CV
发布日期: 2025-09-30 (更新: 2026-01-29)
💡 一句话要点
LaTo:用于精细人脸编辑的地标Token化扩散Transformer
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人脸编辑 扩散模型 Transformer 地标Token化 身份保持
📋 核心要点
- 现有基于指令的人脸编辑方法难以在保持身份的同时进行精确的属性控制,尤其是在地标变化较大时。
- LaTo通过地标Token化、位置编码和无分类器引导,实现了指令、几何和外观之间的解耦交互,从而更好地保持身份。
- LaTo在HFL-150K数据集上取得了显著的性能提升,身份保持提升7.8%,语义一致性提升4.6%。
📝 摘要(中文)
最近基于指令的多模态人脸编辑模型能够进行语义操作,但在精确属性控制和身份保持方面仍然存在困难。诸如地标的结构化面部表示对于中间监督是有效的,但现有方法大多将其视为刚性几何约束,当条件地标与源图像差异较大时(例如,大的表情或姿势变化,不准确的地标估计),会降低身份保持能力。为了解决这些限制,我们提出了LaTo,一种用于精细、身份保持人脸编辑的地标Token化扩散Transformer。我们的关键创新包括:(1)一个地标Token化器,它直接将原始地标坐标量化为离散的面部Token,从而避免了密集的像素级对应关系;(2)一个位置映射的位置编码和一个地标感知的无分类器引导,它们共同促进了指令、几何和外观之间灵活但解耦的交互,从而实现了强大的身份保持;(3)一个地标预测器,它利用视觉-语言模型从指令和源图像中推断目标地标,其结构化的思维链提高了估计精度和交互控制。为了缓解数据稀缺问题,我们整理了HFL-150K,据我们所知,这是该任务最大的基准,包含超过15万个带有精细指令的真实人脸对。大量的实验表明,LaTo在身份保持方面比最先进的方法高出7.8%,在语义一致性方面高出4.6%。代码和数据集将在接受后公开发布。
🔬 方法详解
问题定义:论文旨在解决基于指令的人脸编辑任务中,现有方法在进行大幅度面部属性修改时,难以保持身份一致性的问题。现有方法通常将地标作为刚性约束,当目标地标与源图像差异较大时,容易导致身份信息的丢失。
核心思路:论文的核心思路是将地标信息进行Token化,并结合扩散Transformer架构,实现对人脸图像的精细编辑。通过将地标坐标转换为离散的Token,避免了直接使用原始坐标可能带来的问题,并允许模型学习地标与图像内容之间的复杂关系。同时,利用位置编码和无分类器引导,增强了模型对身份信息的保持能力。
技术框架:LaTo的整体框架包括三个主要模块:地标Token化器、扩散Transformer和地标预测器。地标Token化器将原始地标坐标转换为离散的Token序列。扩散Transformer是核心的图像生成模块,它接收Token化的地标信息和文本指令作为输入,生成编辑后的图像。地标预测器则根据文本指令和源图像预测目标地标,为编辑过程提供指导。
关键创新:LaTo的关键创新在于地标Token化、位置映射的位置编码和地标感知的无分类器引导。地标Token化将连续的地标坐标转换为离散的Token,使得模型能够更好地学习地标与图像内容之间的关系。位置映射的位置编码允许模型区分不同位置的地标Token,从而更好地理解面部结构。地标感知的无分类器引导则增强了模型对身份信息的保持能力。
关键设计:地标Token化器使用VQ-VAE进行训练,将地标坐标映射到离散的Token空间。位置映射的位置编码将地标的位置信息编码到Transformer的输入中。地标感知的无分类器引导通过调整噪声预测器的输出,增强了模型对身份信息的保持能力。HFL-150K数据集包含大量带有精细指令的真实人脸对,用于训练和评估模型。
🖼️ 关键图片
📊 实验亮点
LaTo在HFL-150K数据集上进行了广泛的实验,结果表明,LaTo在身份保持方面比最先进的方法高出7.8%,在语义一致性方面高出4.6%。这些结果表明,LaTo能够有效地进行精细的人脸编辑,并在保持身份一致性方面取得了显著的提升。
🎯 应用场景
LaTo在人脸编辑领域具有广泛的应用前景,例如虚拟形象定制、照片修复、视频会议美颜等。该研究可以提升人脸编辑的精度和真实感,为用户提供更加个性化和自然的人脸编辑体验。未来,该技术还可以应用于人脸动画、人脸识别等领域。
📄 摘要(原文)
Recent multimodal models for instruction-based face editing enable semantic manipulation but still struggle with precise attribute control and identity preservation. Structural facial representations such as landmarks are effective for intermediate supervision, yet most existing methods treat them as rigid geometric constraints, which can degrade identity when conditional landmarks deviate significantly from the source (e.g., large expression or pose changes, inaccurate landmark estimates). To address these limitations, we propose LaTo, a landmark-tokenized diffusion transformer for fine-grained, identity-preserving face editing. Our key innovations include: (1) a landmark tokenizer that directly quantizes raw landmark coordinates into discrete facial tokens, obviating the need for dense pixel-wise correspondence; (2) a location-mapped positional encoding and a landmark-aware classifier-free guidance that jointly facilitate flexible yet decoupled interactions among instruction, geometry, and appearance, enabling strong identity preservation; and (3) a landmark predictor that leverages vision-language models to infer target landmarks from instructions and source images, whose structured chain-of-thought improves estimation accuracy and interactive control. To mitigate data scarcity, we curate HFL-150K, to our knowledge the largest benchmark for this task, containing over 150K real face pairs with fine-grained instructions. Extensive experiments show that LaTo outperforms state-of-the-art methods by 7.8% in identity preservation and 4.6% in semantic consistency. Code and dataset will be made publicly available upon acceptance.