Learning Uniformly Distributed Embedding Clusters of Stylistic Skills for Physically Simulated Characters
作者: Nian Liu, Libin Liu, Zilong Zhang, Zi Wang, Hongzhao Xie, Tengyu Liu, Xinyi Tong, Yaodong Yang, Zhaofeng He
分类: cs.GR
发布日期: 2024-11-10
💡 一句话要点
提出基于神经崩塌和嵌入扩展的技能条件控制器,提升物理模拟角色动作的多样性和可控性
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 物理模拟 角色控制 技能条件控制 神经崩塌 嵌入扩展 动作生成 对抗学习
📋 核心要点
- 现有条件对抗模型在物理模拟角色控制中,存在嵌入分布紧凑且有偏差的问题,限制了技能的表征能力和多样性。
- 利用神经崩塌现象,结合嵌入扩展技术,使技能嵌入簇均匀分布在超球面上,从而最大化表征区域并减少未映射区域。
- 实验结果表明,该控制器能够生成高质量、多样化的运动,并在可控性、运动覆盖率和多样性方面优于现有方法。
📝 摘要(中文)
本文提出了一种技能条件控制器,用于从人体运动数据集中学习自然且多样化的行为。现有的条件对抗模型通常存在嵌入分布紧凑且有偏差的问题,同一运动的嵌入聚集在小区域内,较短的运动占据的空间更小。这种现象限制了每个技能的表征能力和多样性。理想的潜在空间应被所有运动的嵌入簇充分填充。该方法利用神经崩塌现象,通过基于分类的编码器自然产生均匀分布的聚类中心。此外,提出了一种新的嵌入扩展技术,形成风格化的嵌入簇,这些簇均匀分布在超球面上,最大化每个技能占据的表征区域,并最小化未映射区域。这种充分填充且均匀分布的嵌入空间确保同一簇内的嵌入生成符合相应运动片段特征的行为,同时在每个簇内表现出显著的变化。与现有方法相比,该控制器不仅生成高质量、多样化的运动,覆盖整个数据集,而且在每个技能下实现了卓越的可控性、运动覆盖率和多样性。定性和定量结果证实了这些特性,使该控制器能够应用于广泛的下游任务,并成为各种应用的基础。
🔬 方法详解
问题定义:现有基于物理的 character control 方法,特别是条件对抗模型,在从人类动作数据集中学习自然和多样化的行为时面临挑战。这些模型生成的嵌入分布往往过于紧凑和有偏,导致同一动作的嵌入聚集在一个小区域内,短动作占据的空间更小。这限制了模型在每个技能下的表征能力和多样性,难以生成足够丰富的动作变体。
核心思路:本文的核心思路是设计一个技能条件控制器,该控制器能够学习具有表达性变化的 diverse skills。通过利用神经崩塌(Neural Collapse)现象,使得基于分类的编码器能够自然地产生均匀分布的聚类中心。此外,引入嵌入扩展(Embedding Expansion)技术,形成风格化的嵌入簇,这些簇均匀分布在超球面上,从而最大化每个技能所占据的表征区域,并最小化未映射的区域。
技术框架:该方法主要包含一个技能编码器和一个运动生成器。技能编码器负责将输入的运动片段编码成潜在空间的嵌入向量。运动生成器则根据技能嵌入向量和当前的角色状态,生成相应的动作。整个框架采用对抗训练的方式进行优化,以确保生成的动作既自然又多样。
关键创新:该方法最重要的创新点在于利用神经崩塌现象和嵌入扩展技术,来解决现有方法中嵌入分布紧凑和有偏的问题。神经崩塌现象使得聚类中心均匀分布,而嵌入扩展技术则进一步扩大了每个技能的表征区域,从而提高了动作的多样性。与现有方法相比,该方法能够生成更丰富、更自然的动作变体。
关键设计:在技能编码器中,采用了基于分类的网络结构,并利用交叉熵损失函数来促使神经崩塌现象的发生。在嵌入扩展技术中,通过引入一个额外的损失函数,来鼓励嵌入向量在超球面上均匀分布。运动生成器可以采用各种现有的网络结构,例如循环神经网络(RNN)或Transformer。具体的参数设置需要根据具体的任务和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在生成高质量、多样化运动方面优于现有方法。具体而言,该方法在运动覆盖率和多样性方面取得了显著提升,并且在每个技能下实现了更好的可控性。定性和定量结果均表明,该方法能够生成更自然、更丰富的动作变体,从而提升了物理模拟角色的表现力。
🎯 应用场景
该研究成果可广泛应用于游戏、电影、虚拟现实等领域,为物理模拟角色赋予更自然、多样和可控的运动能力。例如,可以用于创建更逼真的游戏角色动画,或生成各种风格化的舞蹈动作。此外,该方法还可以应用于机器人控制领域,使机器人能够学习并执行更复杂的任务。
📄 摘要(原文)
Learning natural and diverse behaviors from human motion datasets remains challenging in physics-based character control. Existing conditional adversarial models often suffer from tight and biased embedding distributions where embeddings from the same motion are closely grouped in a small area and shorter motions occupy even less space. Our empirical observations indicate this limits the representational capacity and diversity under each skill. An ideal latent space should be maximally packed by all motion's embedding clusters. In this paper, we propose a skill-conditioned controller that learns diverse skills with expressive variations. Our approach leverages the Neural Collapse phenomenon, a natural outcome of the classification-based encoder, to uniformly distributed cluster centers. We additionally propose a novel Embedding Expansion technique to form stylistic embedding clusters for diverse skills that are uniformly distributed on a hypersphere, maximizing the representational area occupied by each skill and minimizing unmapped regions. This maximally packed and uniformly distributed embedding space ensures that embeddings within the same cluster generate behaviors conforming to the characteristics of the corresponding motion clips, yet exhibiting noticeable variations within each cluster. Compared to existing methods, our controller not only generates high-quality, diverse motions covering the entire dataset but also achieves superior controllability, motion coverage, and diversity under each skill. Both qualitative and quantitative results confirm these traits, enabling our controller to be applied to a wide range of downstream tasks and serving as a cornerstone for diverse applications.