EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

📄 arXiv: 2507.03905v4 📥 PDF

作者: Rang Meng, Yan Wang, Weipeng Wu, Ruobing Zheng, Yuming Li, Chenguang Ma

分类: cs.CV

发布日期: 2025-07-05 (更新: 2025-08-07)


💡 一句话要点

EchoMimicV3:仅需13亿参数即可实现统一的多模态多任务人体动画

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 人体动画 多任务学习 多模态融合 视频生成 深度学习 模型压缩 高效推理

📋 核心要点

  1. 现有的人体动画方法通常依赖大型视频模型,导致推理速度慢且计算需求高,限制了实际应用。
  2. EchoMimicV3通过任务混合和模态混合范式,以及创新的训练和推理策略,实现了高效的多任务多模态人体动画。
  3. 实验结果表明,EchoMimicV3仅使用13亿参数的模型,即可在性能上与现有方法竞争,并具有更高的效率。

📝 摘要(中文)

本文提出EchoMimicV3,一个高效的框架,用于统一多任务和多模态人体动画。该框架的核心设计包含三个方面:任务混合范式(Soup-of-Tasks),模态混合范式(Soup-of-Modals)以及一种新颖的训练和推理策略。任务混合范式利用多任务掩码输入和反直觉的任务分配策略,在不增加模型数量的情况下实现多任务增益。模态混合范式引入了耦合-解耦多模态交叉注意力模块来注入多模态条件,并辅以多模态时间步相位感知动态分配机制来调节多模态混合。此外,我们提出了负直接偏好优化、相位感知负分类器自由引导(CFG)和长视频CFG,以确保稳定的训练和推理。大量实验和分析表明,EchoMimicV3以最小的模型尺寸(13亿参数)在定量和定性评估中均实现了具有竞争力的性能。

🔬 方法详解

问题定义:现有的人体动画方法,特别是那些依赖大型视频模型的方法,在推理速度和计算资源需求方面存在瓶颈,难以实际应用。此外,传统方法通常为每个动画任务训练单独的模型,这在多任务场景下增加了成本。因此,需要一种更高效、更通用的方法来处理多任务和多模态的人体动画。

核心思路:EchoMimicV3的核心思路是利用“混合”范式来共享模型参数,从而在多任务和多模态场景下提高效率。通过任务混合(Soup-of-Tasks)和模态混合(Soup-of-Modals),模型可以同时处理多个任务和多种模态的输入,而无需为每个任务或模态训练单独的模型。这种设计旨在减少模型大小和计算复杂度,同时保持或提高性能。

技术框架:EchoMimicV3的整体框架包含以下几个主要模块:1) 任务混合模块,使用多任务掩码输入和特定的任务分配策略来处理多个任务。2) 模态混合模块,包含耦合-解耦多模态交叉注意力模块和多模态时间步相位感知动态分配机制,用于融合不同模态的信息。3) 训练和推理策略,包括负直接偏好优化、相位感知负分类器自由引导(CFG)和长视频CFG,用于稳定训练过程并提高推理性能。

关键创新:EchoMimicV3的关键创新在于其“混合”范式,即任务混合和模态混合。任务混合允许模型同时处理多个任务,而无需为每个任务训练单独的模型。模态混合则允许模型融合来自不同模态的信息,从而提高动画的质量和真实感。此外,提出的训练和推理策略,如负直接偏好优化和相位感知负CFG,进一步提高了模型的稳定性和性能。

关键设计:任务混合中,使用了多任务掩码输入来区分不同的任务,并采用了一种反直觉的任务分配策略。模态混合中,耦合-解耦多模态交叉注意力模块用于在不同模态之间进行信息交互,而多模态时间步相位感知动态分配机制则用于根据时间步和相位动态地调整不同模态的权重。训练方面,负直接偏好优化用于优化模型的偏好,相位感知负CFG和长视频CFG用于提高模型的稳定性和生成长视频的能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EchoMimicV3在多任务和多模态人体动画任务上取得了显著的成果。该模型仅使用13亿参数,在定量和定性评估中均表现出与现有方法相当甚至更优的性能。实验结果表明,EchoMimicV3在保持高性能的同时,显著降低了模型大小和计算复杂度,使其更易于部署和应用。

🎯 应用场景

EchoMimicV3具有广泛的应用前景,包括虚拟现实、增强现实、游戏开发、电影制作和人机交互等领域。它可以用于创建更逼真、更自然的虚拟人物动画,提高用户体验,并降低动画制作的成本和时间。该研究的未来影响在于推动人体动画技术的进步,使其更加高效、通用和易于使用。

📄 摘要(原文)

Recent work on human animation usually incorporates large-scale video models, thereby achieving more vivid performance. However, the practical use of such methods is hindered by the slow inference speed and high computational demands. Moreover, traditional work typically employs separate models for each animation task, increasing costs in multi-task scenarios and worsening the dilemma. To address these limitations, we introduce EchoMimicV3, an efficient framework that unifies multi-task and multi-modal human animation. At the core of EchoMimicV3 lies a threefold design: a Soup-of-Tasks paradigm, a Soup-of-Modals paradigm, and a novel training and inference strategy. The Soup-of-Tasks leverages multi-task mask inputs and a counter-intuitive task allocation strategy to achieve multi-task gains without multi-model pains. Meanwhile, the Soup-of-Modals introduces a Coupled-Decoupled Multi-Modal Cross Attention module to inject multi-modal conditions, complemented by a Multi-Modal Timestep Phase-aware Dynamical Allocation mechanism to modulate multi-modal mixtures. Besides, we propose Negative Direct Preference Optimization, Phase-aware Negative Classifier-Free Guidance (CFG), and Long Video CFG, which ensure stable training and inference. Extensive experiments and analyses demonstrate that EchoMimicV3, with a minimal model size of 1.3 billion parameters, achieves competitive performance in both quantitative and qualitative evaluations.