Archon: A Unified Multimodal Model for Holistic Digital Human Generation

作者: Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang

分类: cs.CV, cs.AI

发布日期: 2026-05-28

备注: Accepted to CVPR 2026. Project Page: https://zju3dv.github.io/archon/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Archon：用于整体数字人生成的统一多模态模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数字人生成 多模态融合 统一模型 视频生成 自回归模型 语义表示 模态思考

📋 核心要点

现有数字人生成方法难以统一处理文本、音频、动作和视觉内容等多种模态。
Archon通过统一的多模态模型，在同步模态数据上预训练，建模整体联合分布，实现多种模态的协同生成。
实验表明，Archon在数字人生成任务中表现出色，验证了统一框架的有效性。

📝 摘要（中文）

本文提出了Archon，一个完全预训练的、以人为中心的统一多模态模型，用于整体化身生成。Archon统一了七种模态，使用模态特定的分词器，以及一个原生的自回归统一多模态模型，该模型在同步模态和72个不同的任务上进行预训练，以建模整体联合分布。为了解决高保真说话视频中的token爆炸挑战，我们引入了一种内存高效的语义视频重参数化，实现了4倍的token减少，同时保留了细粒度的动态，并结合了语义驱动的视频扩散解码器。我们进一步提出了“模态思考”，将模糊的跨模态任务分解为模态交替链中的逐步思考，逐步提高保真度和可控性。大量的实验表明，Archon在各种数字人生成任务中实现了优越或可比的性能，验证了我们统一框架的有效性。

🔬 方法详解

问题定义：数字人生成需要同时处理多种模态的信息，例如文本、音频、动作和视觉内容。现有的方法通常针对特定模态或任务进行优化，缺乏一个统一的模型来处理所有模态，并且在高保真视频生成中面临token数量爆炸的问题。

核心思路：Archon的核心思路是构建一个统一的多模态模型，通过在大量同步的多模态数据上进行预训练，学习不同模态之间的联合分布。同时，采用语义视频重参数化技术来减少视频token的数量，并使用模态交替的“模态思考”策略来提高生成质量和可控性。

技术框架：Archon包含以下主要模块：1) 模态特定分词器：将不同模态的数据转换为token序列。2) 统一多模态模型：一个自回归Transformer模型，用于建模不同模态之间的联合分布。3) 语义视频重参数化：将高维视频帧转换为低维语义表示。4) 语义驱动的视频扩散解码器：根据语义表示生成高保真视频。5) “模态思考”策略：将跨模态任务分解为模态交替的步骤。

关键创新：Archon的关键创新在于：1) 提出了一个统一的多模态模型，可以同时处理多种模态的信息。2) 引入了语义视频重参数化技术，有效减少了视频token的数量，降低了计算复杂度。3) 提出了“模态思考”策略，提高了生成结果的保真度和可控性。

关键设计：Archon使用Transformer作为统一多模态模型的基础架构。语义视频重参数化通过一个编码器将视频帧转换为语义表示，然后使用一个扩散模型根据语义表示生成视频帧。损失函数包括交叉熵损失、重建损失和对抗损失等。

🖼️ 关键图片

📊 实验亮点

Archon在多个数字人生成任务上取得了优越或可比的性能。通过语义视频重参数化，实现了4倍的token减少，同时保留了细粒度的动态。通过“模态思考”策略，显著提高了生成结果的保真度和可控性。实验结果验证了Archon统一框架的有效性。

🎯 应用场景

Archon可应用于虚拟助手、游戏角色、社交媒体化身、远程会议等领域。它能够根据文本、音频和动作等输入，生成逼真且具有表现力的数字人，从而增强人机交互的沉浸感和真实感。未来，Archon有望成为构建下一代虚拟现实和增强现实应用的关键技术。

📄 摘要（原文）

Digital humans are fundamental to immersive interaction, yet creating a unified model for holistic modalities, including text, audio, motion, and visual content, remains an open challenge. In this paper, we present Archon, a fully pretrained, human-centric unified multimodal model for holistic avatar generation. Archon unifies seven modalities with modality-specific tokenizers, and a native autoregressive unified multimodal model pretrained on synchronized modalities and 72 diverse tasks to model holistic joint distributions. To address the token explosion challenge in high-fidelity talking videos, we introduce a memory-efficient semantic video reparameterization, achieving 4x token reduction while preserving fine-grained dynamics, coupled with a semantic-driven video diffusion decoder. We further propose a "Thinking in Modality" that decomposes ambiguous cross-modal tasks into stepwise thinking in an alternative chain of modality, progressively enhancing fidelity and controllability. Extensive experiments demonstrate that Archon achieves superior or comparable performance across diverse digital human generation tasks, validating the effectiveness of our unified framework. Project page: https://zju3dv.github.io/archon/.

Archon: A Unified Multimodal Model for Holistic Digital Human Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理