HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

作者: Teng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu

分类: cs.CV

发布日期: 2025-05-07 (更新: 2025-05-08)

💡 一句话要点

HunyuanCustom：一种多模态驱动的定制化视频生成架构

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 定制视频生成 多模态融合 身份一致性 视频生成 条件视频生成 LLaVA HunyuanVideo

📋 核心要点

现有定制视频生成方法难以保证生成视频中人物身份的一致性，且支持的输入模态有限。
HunyuanCustom通过多模态融合和身份增强模块，实现了图像、音频、视频和文本条件下的定制视频生成。
实验表明，HunyuanCustom在身份一致性、真实性和文本-视频对齐方面显著优于现有方法，并在下游任务中表现出鲁棒性。

📝 摘要（中文）

定制化视频生成旨在根据用户定义的条件生成具有特定主体的视频，但现有方法通常在身份一致性和有限的输入模态方面存在困难。本文提出了HunyuanCustom，一个多模态定制视频生成框架，强调主体一致性，同时支持图像、音频、视频和文本条件。该模型基于HunyuanVideo，首先通过引入基于LLaVA的文本-图像融合模块来增强多模态理解，并引入图像ID增强模块，利用时间连接来加强跨帧的身份特征，从而解决图像-文本条件下的生成任务。为了实现音频和视频条件下的生成，进一步提出了特定于模态的条件注入机制：一个通过空间交叉注意力实现分层对齐的AudioNet模块，以及一个通过基于patchify的特征对齐网络集成潜在压缩条件视频的视频驱动注入模块。在单主体和多主体场景下的大量实验表明，HunyuanCustom在ID一致性、真实性和文本-视频对齐方面显著优于最先进的开源和闭源方法。此外，验证了其在下游任务（包括音频和视频驱动的定制视频生成）中的鲁棒性。结果突出了多模态条件和身份保持策略在推进可控视频生成方面的有效性。

🔬 方法详解

问题定义：论文旨在解决定制化视频生成中身份一致性差和输入模态受限的问题。现有方法难以在多种模态输入下生成高质量且保持人物身份一致的视频，限制了其应用范围和用户体验。

核心思路：论文的核心思路是利用多模态融合增强模型对输入条件的理解，并采用身份增强模块来保证生成视频中人物身份的一致性。通过模态特定的注入机制，模型可以灵活地接受图像、音频、视频和文本等多种输入条件。

技术框架：HunyuanCustom框架基于HunyuanVideo，包含以下主要模块：1) 文本-图像融合模块（基于LLaVA），用于增强多模态理解；2) 图像ID增强模块，通过时间连接强化身份特征；3) AudioNet模块，通过空间交叉注意力实现音频特征的分层对齐；4) 视频驱动注入模块，通过patchify-based特征对齐网络集成条件视频。

关键创新：论文的关键创新在于多模态条件注入机制和身份增强模块的结合。通过LLaVA进行文本-图像融合，增强了模型对多模态信息的理解。图像ID增强模块有效提升了生成视频中人物身份的一致性。AudioNet和视频驱动注入模块实现了音频和视频条件下的灵活控制。

关键设计：文本-图像融合模块采用LLaVA模型，利用其强大的视觉语言理解能力。图像ID增强模块通过时间连接将相邻帧的特征进行融合，从而增强身份特征的稳定性。AudioNet模块采用空间交叉注意力机制，实现音频特征与视频帧特征的对齐。视频驱动注入模块使用patchify-based特征对齐网络，将条件视频的潜在表示融入生成过程中。

🖼️ 关键图片

📊 实验亮点

实验结果表明，HunyuanCustom在单主体和多主体场景下，显著优于现有的开源和闭源方法。在身份一致性、真实性和文本-视频对齐方面均取得了显著提升。此外，该模型在音频和视频驱动的定制视频生成等下游任务中也表现出良好的鲁棒性。

🎯 应用场景

HunyuanCustom具有广泛的应用前景，包括个性化内容创作、虚拟形象定制、电影特效制作、游戏角色生成等。该技术可以根据用户的需求，生成具有特定人物和场景的视频，为内容创作提供更大的灵活性和创造性，并有望推动虚拟现实和增强现实等领域的发展。

📄 摘要（原文）

Customized video generation aims to produce videos featuring specific subjects under flexible user-defined conditions, yet existing methods often struggle with identity consistency and limited input modalities. In this paper, we propose HunyuanCustom, a multi-modal customized video generation framework that emphasizes subject consistency while supporting image, audio, video, and text conditions. Built upon HunyuanVideo, our model first addresses the image-text conditioned generation task by introducing a text-image fusion module based on LLaVA for enhanced multi-modal understanding, along with an image ID enhancement module that leverages temporal concatenation to reinforce identity features across frames. To enable audio- and video-conditioned generation, we further propose modality-specific condition injection mechanisms: an AudioNet module that achieves hierarchical alignment via spatial cross-attention, and a video-driven injection module that integrates latent-compressed conditional video through a patchify-based feature-alignment network. Extensive experiments on single- and multi-subject scenarios demonstrate that HunyuanCustom significantly outperforms state-of-the-art open- and closed-source methods in terms of ID consistency, realism, and text-video alignment. Moreover, we validate its robustness across downstream tasks, including audio and video-driven customized video generation. Our results highlight the effectiveness of multi-modal conditioning and identity-preserving strategies in advancing controllable video generation. All the code and models are available at https://hunyuancustom.github.io.

HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理