LiveGesture Streamable Co-Speech Gesture Generation Model
作者: Muhammad Usama Saleem, Mayur Jagdishbhai Patel, Ekkasit Pinyoanuntapong, Zhongxing Qin, Li Yang, Hongfei Xue, Ahmed Helmy, Chen Chen, Pu Wang
分类: cs.CV
发布日期: 2026-04-13
💡 一句话要点
提出LiveGesture,首个零延迟、任意长度的流式语音驱动全身手势生成框架
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 协同语音手势生成 流式生成 零延迟 自回归模型 Transformer 矢量量化 区域协调
📋 核心要点
- 现有协同语音手势生成方法通常为离线设计,无法满足实时流式应用的需求,且忽略了身体区域间的协调。
- LiveGesture通过可流式矢量量化运动标记器(SVQ)和分层自回归Transformer(HAR),实现了因果、区域协调的运动生成。
- 实验表明,LiveGesture在BEAT2数据集上实时生成连贯、多样且与节拍同步的全身手势,性能媲美甚至超越离线方法。
📝 摘要(中文)
本文提出LiveGesture,是首个完全流式、语音驱动的全身手势生成框架,它以零延迟运行并支持任意序列长度。与现有的协同语音手势方法不同,这些方法是为离线生成而设计的,要么独立处理身体区域,要么将所有关节纠缠在单个模型中,而LiveGesture从头开始构建,用于因果、区域协调的运动生成。LiveGesture由两个主要模块组成:可流式矢量量化运动标记器(SVQ)和分层自回归Transformer(HAR)。SVQ标记器将每个身体区域的运动序列转换为因果、离散的运动标记,从而实现实时的、可流式标记解码。在SVQ之上,HAR采用区域专家自回归(xAR)Transformer来建模每个身体区域富有表现力的、细粒度的运动动态。然后,因果时空融合模块(xAR Fusion)捕获并整合跨区域的相关运动动态。xAR和xAR Fusion都以由可流式因果音频编码器编码的实时、连续到达的音频信号为条件。为了增强在流式噪声和预测误差下的鲁棒性,我们引入了自回归掩码训练,它利用不确定性引导的标记掩码和随机区域掩码,使模型在训练期间暴露于不完美的、部分错误的history。在BEAT2数据集上的实验表明,LiveGesture实时生成连贯、多样且与节拍同步的全身手势,在真正的零延迟条件下匹配或超过最先进的离线方法。
🔬 方法详解
问题定义:现有协同语音手势生成方法主要面向离线场景,无法处理实时流式语音输入,存在延迟问题。此外,这些方法通常独立处理身体区域,或将所有关节耦合在一个模型中,忽略了身体各区域之间的协调关系,导致生成的手势不自然。
核心思路:LiveGesture的核心思路是构建一个完全流式的、区域协调的运动生成框架。通过将运动序列转换为离散的运动标记,并利用分层自回归Transformer建模区域间的依赖关系,实现零延迟、高质量的手势生成。这种设计允许模型在接收到语音输入的同时,实时生成相应的手势,并保证身体各区域运动的协调性。
技术框架:LiveGesture框架包含两个主要模块:Streamable Vector Quantized Motion Tokenizer (SVQ) 和 Hierarchical Autoregressive Transformer (HAR)。SVQ将每个身体区域的运动序列转换为离散的运动标记,实现实时解码。HAR则利用区域专家自回归(xAR)Transformer建模每个区域的运动动态,并通过因果时空融合模块(xAR Fusion)整合跨区域的运动信息。整个框架以可流式因果音频编码器编码的音频信号为条件。
关键创新:LiveGesture的关键创新在于其完全流式的架构和区域协调的建模方式。传统的协同语音手势生成方法通常需要预先获取完整的语音序列才能生成手势,而LiveGesture可以在接收到语音输入的同时实时生成手势。此外,LiveGesture通过分层自回归Transformer建模区域间的依赖关系,保证了生成手势的自然性和协调性。自回归掩码训练增强了模型在噪声和预测误差下的鲁棒性。
关键设计:SVQ采用矢量量化技术将连续的运动序列转换为离散的运动标记,降低了计算复杂度,并方便了后续的自回归建模。HAR中的xAR Transformer针对每个身体区域进行优化,能够更好地捕捉该区域的运动特征。xAR Fusion模块采用因果卷积,保证了信息的因果传递,避免了未来信息的泄露。自回归掩码训练通过随机掩盖部分历史信息,使模型能够更好地适应不完美的输入。
🖼️ 关键图片
📊 实验亮点
LiveGesture在BEAT2数据集上进行了实验,结果表明,该方法能够在真正的零延迟条件下,生成连贯、多样且与节拍同步的全身手势,其性能与最先进的离线方法相当甚至更好。这证明了LiveGesture在实时协同语音手势生成方面的有效性和优越性。
🎯 应用场景
LiveGesture可应用于虚拟助手、游戏角色、远程会议、虚拟现实等领域,提升人机交互的自然性和表现力。该技术能够使虚拟角色根据用户的语音实时生成自然的手势,从而增强用户的沉浸感和交互体验。未来,该技术有望应用于更广泛的领域,例如智能客服、教育培训等。
📄 摘要(原文)
We propose LiveGesture, the first fully streamable, speech-driven full-body gesture generation framework that operates with zero look-ahead and supports arbitrary sequence length. Unlike existing co-speech gesture methods, which are designed for offline generation and either treat body regions independently or entangle all joints within a single model, LiveGesture is built from the ground up for causal, region-coordinated motion generation. LiveGesture consists of two main modules: the Streamable Vector Quantized Motion Tokenizer (SVQ) and the Hierarchical Autoregressive Transformer (HAR). The SVQ tokenizer converts the motion sequence of each body region into causal, discrete motion tokens, enabling real-time, streamable token decoding. On top of SVQ, HAR employs region-expert autoregressive (xAR) transformers to model expressive, fine-grained motion dynamics for each body region. A causal spatio-temporal fusion module (xAR Fusion) then captures and integrates correlated motion dynamics across regions. Both xAR and xAR Fusion are conditioned on live, continuously arriving audio signals encoded by a streamable causal audio encoder. To enhance robustness under streaming noise and prediction errors, we introduce autoregressive masking training, which leverages uncertainty-guided token masking and random region masking to expose the model to imperfect, partially erroneous histories during training. Experiments on the BEAT2 dataset demonstrate that LiveGesture produces coherent, diverse, and beat-synchronous full-body gestures in real time, matching or surpassing state-of-the-art offline methods under true zero look-ahead conditions.