FreeCus: Free Lunch Subject-driven Customization in Diffusion Transformers

📄 arXiv: 2507.15249v1 📥 PDF

作者: Yanbing Zhang, Zhe Wang, Qin Zhou, Mengping Yang

分类: cs.CV

发布日期: 2025-07-21

备注: Accepted by ICCV 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出FreeCus,一种在扩散Transformer中实现免训练的主题驱动定制方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散Transformer 主题驱动生成 零样本学习 图像定制 多模态融合

📋 核心要点

  1. 现有主题驱动的图像生成方法依赖于针对每个主题的训练或大型数据集上的特征提取,限制了实际应用。
  2. FreeCus通过注意力共享、动态移位升级和多模态大语言模型集成,激活扩散Transformer的零样本能力。
  3. 实验表明,FreeCus在主题一致性合成方面达到SOTA或可比结果,且与现有修复和控制模块兼容。

📝 摘要(中文)

随着文本到图像(T2I)生成,特别是扩散Transformer(DiT)的突破,主题驱动技术越来越多地被用于高保真定制化生成,它能够从参考输入中保留主题身份,从而实现激动人心的设计工作流程和引人入胜的娱乐体验。现有的方法通常需要通过可训练的文本嵌入进行每个主题的优化,或者训练专门的编码器来在大规模数据集上提取主题特征。这种对训练程序的依赖从根本上限制了它们的实际应用。更重要的是,当前的方法未能充分利用现代扩散Transformer(例如,Flux系列)在真实主题驱动合成方面的固有零样本潜力。为了弥合这一差距,我们提出了FreeCus,这是一个真正的免训练框架,它通过三个关键创新激活了DiT的能力:1)我们引入了一种关键的注意力共享机制,该机制捕获主题的布局完整性,同时保留了关键的编辑灵活性。2)通过对DiT动态移位的直接分析,我们提出了一种升级的变体,该变体显着提高了细粒度特征提取。3)我们进一步集成了先进的多模态大型语言模型(MLLM)来丰富跨模态语义表示。大量的实验表明,我们的方法成功地释放了DiT的零样本能力,可以在不同的上下文中实现一致的主题合成,与需要额外训练的方法相比,实现了最先进或可比的结果。值得注意的是,我们的框架与现有的修复管道和控制模块无缝兼容,从而促进了更引人入胜的体验。我们的代码可在https://github.com/Monalissaa/FreeCus上找到。

🔬 方法详解

问题定义:论文旨在解决现有主题驱动图像生成方法对训练数据的依赖问题。现有方法,如基于可训练文本嵌入的优化或训练特定编码器提取特征,需要大量的训练数据和计算资源,限制了其在实际场景中的应用,并且未能充分利用扩散Transformer的零样本潜力。

核心思路:FreeCus的核心思路是充分挖掘扩散Transformer(DiT)的零样本能力,通过一系列免训练的技术手段,实现对特定主题的定制化图像生成。该方法旨在在不进行额外训练的情况下,保持生成图像中主题的一致性和可编辑性。

技术框架:FreeCus框架主要包含三个核心模块:1) 关键注意力共享机制,用于捕获主题的布局完整性;2) 动态移位升级的DiT变体,用于提升细粒度特征提取能力;3) 多模态大型语言模型(MLLM)集成,用于丰富跨模态语义表示。整体流程是,首先通过MLLM理解文本描述,然后利用注意力共享机制和升级的DiT变体生成图像,最终实现主题一致且可编辑的图像生成。

关键创新:FreeCus的关键创新在于其完全免训练的特性,以及通过注意力共享机制、动态移位升级和MLLM集成,有效激活了扩散Transformer的零样本能力。与现有方法需要针对每个主题进行训练或依赖大规模数据集训练编码器不同,FreeCus无需任何训练即可实现高质量的主题驱动图像生成。

关键设计:注意力共享机制的具体实现方式未知,但其目的是在生成过程中保持主题的布局完整性。动态移位升级的DiT变体可能涉及到对DiT网络结构的修改或对特征提取方式的改进,以提升细粒度特征的提取能力。MLLM的选择和集成方式也可能影响最终的生成效果,具体细节未知。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,FreeCus在主题一致性合成方面达到了与需要额外训练的方法相当甚至更优的性能。该方法成功地释放了DiT的零样本能力,可以在不同的上下文中实现一致的主题合成。此外,FreeCus与现有的修复管道和控制模块无缝兼容,进一步提升了用户体验。

🎯 应用场景

FreeCus可应用于个性化内容创作、虚拟形象定制、游戏资产生成、电商产品展示等领域。它降低了主题驱动图像生成的门槛,使得用户无需专业技能和大量数据即可生成高质量的定制化图像,具有广泛的应用前景和商业价值。

📄 摘要(原文)

In light of recent breakthroughs in text-to-image (T2I) generation, particularly with diffusion transformers (DiT), subject-driven technologies are increasingly being employed for high-fidelity customized production that preserves subject identity from reference inputs, enabling thrilling design workflows and engaging entertainment. Existing alternatives typically require either per-subject optimization via trainable text embeddings or training specialized encoders for subject feature extraction on large-scale datasets. Such dependencies on training procedures fundamentally constrain their practical applications. More importantly, current methodologies fail to fully leverage the inherent zero-shot potential of modern diffusion transformers (e.g., the Flux series) for authentic subject-driven synthesis. To bridge this gap, we propose FreeCus, a genuinely training-free framework that activates DiT's capabilities through three key innovations: 1) We introduce a pivotal attention sharing mechanism that captures the subject's layout integrity while preserving crucial editing flexibility. 2) Through a straightforward analysis of DiT's dynamic shifting, we propose an upgraded variant that significantly improves fine-grained feature extraction. 3) We further integrate advanced Multimodal Large Language Models (MLLMs) to enrich cross-modal semantic representations. Extensive experiments reflect that our method successfully unlocks DiT's zero-shot ability for consistent subject synthesis across diverse contexts, achieving state-of-the-art or comparable results compared to approaches that require additional training. Notably, our framework demonstrates seamless compatibility with existing inpainting pipelines and control modules, facilitating more compelling experiences. Our code is available at: https://github.com/Monalissaa/FreeCus.