LPM 1.0: Video-based Character Performance Model
作者: Ailing Zeng, Casper Yang, Chauncey Ge, Eddie Zhang, Garvey Xu, Gavin Lin, Gilbert Gu, Jeremy Pi, Leo Li, Mingyi Shi, Sheng Bi, Steven Tang, Thorn Hang, Tobey Guo, Vincent Li, Xin Tong, Yikang Li, Yuchen Sun, Yue, Zhao, Yuhan Lu, Yuwei Li, Zane Zhang, Zeshi Yang, Zi Ye
分类: cs.CV, cs.AI, cs.MM
发布日期: 2026-04-09
备注: 43 pages, 15 figures, 2 tables. Project page: https://large-performance-model.github.io
💡 一句话要点
LPM 1.0:提出基于视频的角色表演模型,解决高表现力、实时推理和身份稳定性三难问题。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 角色表演模型 多模态学习 扩散模型 实时推理 身份一致性 对话生成 视频生成
📋 核心要点
- 现有视频模型难以同时实现高表现力、实时推理和长期身份稳定性,面临“表演三难”问题。
- LPM 1.0通过构建多模态数据集,训练扩散Transformer,并提炼成因果流式生成器,实现可控、身份一致的实时表演生成。
- LPM 1.0在LPM-Bench基准测试中取得了最先进的结果,验证了其在交互式角色表演方面的有效性。
📝 摘要(中文)
本文提出LPM 1.0(大型表演模型),专注于单人全双工音视频对话表演,旨在解决现有视频模型在高表现力、实时推理和长期身份稳定性方面存在的“表演三难”问题。通过严格筛选构建多模态人本数据集,该数据集包含说话-倾听音视频配对、表演理解和身份感知多参考提取。使用一个170亿参数的扩散Transformer(Base LPM)进行训练,通过多模态条件控制实现高度可控、身份一致的表演。然后,将其提炼成一个因果流式生成器(Online LPM),用于低延迟、无限长度的交互。在推理阶段,给定角色图像和身份感知参考,LPM 1.0可以根据用户音频生成倾听视频,根据合成音频生成说话视频,并使用文本提示进行动作控制,所有这些都以实时速度和身份稳定的无限长度生成实现。LPM 1.0可作为对话代理、直播角色和游戏NPC的视觉引擎。为了系统地评估这种设置,我们提出了LPM-Bench,这是第一个交互式角色表演的基准。LPM 1.0在所有评估维度上都取得了最先进的结果,同时保持了实时推理。
🔬 方法详解
问题定义:现有基于视频的角色表演模型难以兼顾高表现力、实时推理和长期身份稳定性,尤其是在对话场景中,角色需要同时说话、倾听、反应和表达情感,并保持身份一致性。现有方法往往在这些方面有所妥协,无法满足实际应用需求。
核心思路:LPM 1.0的核心思路是利用大规模多模态数据学习角色表演的内在规律,并将其分解为可控的生成过程。通过扩散模型学习高表现力的表演,然后通过蒸馏技术实现实时推理,同时利用身份感知机制保证长期身份稳定性。
技术框架:LPM 1.0的技术框架主要包含三个部分:多模态数据集构建、Base LPM训练和Online LPM蒸馏。首先,构建一个包含说话-倾听音视频配对、表演理解和身份感知多参考提取的多模态数据集。然后,使用该数据集训练一个170亿参数的扩散Transformer(Base LPM),用于学习角色表演的分布。最后,将Base LPM提炼成一个因果流式生成器(Online LPM),用于低延迟、无限长度的交互。
关键创新:LPM 1.0的关键创新在于其能够同时实现高表现力、实时推理和长期身份稳定性。这得益于其多模态数据驱动的学习方法、扩散模型的强大生成能力和蒸馏技术的加速效果。此外,身份感知机制也保证了生成视频中角色身份的一致性。
关键设计:Base LPM采用扩散Transformer架构,通过多模态条件控制(例如,用户音频、合成音频和文本提示)实现可控的表演生成。Online LPM则采用因果流式生成器架构,保证低延迟和无限长度的生成。损失函数的设计也至关重要,需要平衡表现力、实时性和身份稳定性。
🖼️ 关键图片
📊 实验亮点
LPM 1.0在LPM-Bench基准测试中取得了最先进的结果,证明了其在交互式角色表演方面的优越性。具体而言,LPM 1.0在表现力、实时性和身份稳定性等多个维度上都超越了现有方法,并实现了实时推理,为交互式角色表演提供了新的可能性。
🎯 应用场景
LPM 1.0具有广泛的应用前景,可作为对话代理、直播角色和游戏NPC的视觉引擎。它可以用于创建更逼真、更具吸引力的虚拟角色,提升用户体验。此外,LPM 1.0还可以应用于虚拟现实、增强现实和远程呈现等领域。
📄 摘要(原文)
Performance, the externalization of intent, emotion, and personality through visual, vocal, and temporal behavior, is what makes a character alive. Learning such performance from video is a promising alternative to traditional 3D pipelines. However, existing video models struggle to jointly achieve high expressiveness, real-time inference, and long-horizon identity stability, a tension we call the performance trilemma. Conversation is the most comprehensive performance scenario, as characters simultaneously speak, listen, react, and emote while maintaining identity over time. To address this, we present LPM 1.0 (Large Performance Model), focusing on single-person full-duplex audio-visual conversational performance. Concretely, we build a multimodal human-centric dataset through strict filtering, speaking-listening audio-video pairing, performance understanding, and identity-aware multi-reference extraction; train a 17B-parameter Diffusion Transformer (Base LPM) for highly controllable, identity-consistent performance through multimodal conditioning; and distill it into a causal streaming generator (Online LPM) for low-latency, infinite-length interaction. At inference, given a character image with identity-aware references, LPM 1.0 generates listening videos from user audio and speaking videos from synthesized audio, with text prompts for motion control, all at real-time speed with identity-stable, infinite-length generation. LPM 1.0 thus serves as a visual engine for conversational agents, live streaming characters, and game NPCs. To systematically evaluate this setting, we propose LPM-Bench, the first benchmark for interactive character performance. LPM 1.0 achieves state-of-the-art results across all evaluated dimensions while maintaining real-time inference.