Omni-Supervised Motion Editing: Balancing Change and Invariance through Positive-Negative Learning
作者: Zhenwu Shi, Jingyu Gong, Peiwei Wang, Xingzan Wang, Tianwen Qian, Wenxi Li, Yuan Fang, Jiao Xie, Lizhuang Ma, Shaohui Lin
分类: cs.CV
发布日期: 2026-05-29
🔗 代码/项目: GITHUB
💡 一句话要点
提出OmniME框架,通过正负学习平衡文本驱动人体动作编辑中的变化与不变性。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 文本驱动动作编辑 动作生成 正负学习 Transformer 语义对齐
📋 核心要点
- 现有文本驱动人体动作编辑方法难以平衡动作编辑中的变化与不变性,导致动作失真和语义对齐不佳。
- OmniME框架通过回顾性特征监督、运动保持机制和三元组语义对齐,实现变化与不变性的平衡。
- 实验表明,OmniME在MotionFix和STANCE Adjustment数据集上取得了SOTA性能,验证了框架的有效性。
📝 摘要(中文)
本文提出了一种名为OmniME的全监督正负学习框架,用于文本驱动的人体动作编辑,旨在根据自然语言指令修改现有动作序列,同时保持原始动作的一致性。现有基于扩散的方法通常依赖于启发式相似性线索或粗略的全局条件,导致动作失真和次优的语义对齐。关键挑战在于平衡变化(即精确编辑目标区域)和不变性(即保留未编辑部分)。OmniME集成了三个互补组件:(1)回顾性特征监督,它在Transformer层中强制执行由粗到精的一致性;(2)运动保持机制,它根据源-目标相似性关注细微的变化;(3)基于三元组的语义对齐,它加强了文本-动作的对应关系。这些组件共同构成了一个统一的监督范式,平衡了变化和不变性。在MotionFix和STANCE Adjustment数据集上的大量实验表明,OmniME在编辑对齐方面实现了最先进的性能,验证了我们统一学习框架的有效性。
🔬 方法详解
问题定义:文本驱动的人体动作编辑旨在根据给定的文本指令修改现有的动作序列。现有方法,特别是基于扩散模型的方法,常常依赖启发式相似度或者粗糙的全局条件,导致编辑后的动作出现失真,并且文本和动作的语义对齐效果不佳。核心挑战在于如何在修改指定区域动作的同时,尽可能保持未修改区域动作的自然性和一致性。
核心思路:OmniME的核心思路是通过一种全监督的正负学习框架来平衡动作编辑中的变化(change)和不变性(invariance)。具体来说,就是既要确保编辑后的动作能够准确反映文本指令的要求,又要尽可能地保留原始动作的风格和自然性。通过正负样本的学习,模型能够更好地区分哪些部分需要修改,哪些部分需要保持。
技术框架:OmniME框架包含三个主要模块:1) 回顾性特征监督(Retrospective Feature Supervision):在Transformer的各个层级上强制执行由粗到精的特征一致性,确保编辑过程的连贯性。2) 运动保持机制(Motion Preservation Mechanism):通过分析源动作和目标动作的相似性,关注细微的变化,从而更好地保留原始动作的风格。3) 三元组语义对齐(Triplet-based Semantic Alignment):通过构建文本、原始动作和编辑后动作的三元组,加强文本和动作之间的语义对应关系。这三个模块共同构成一个统一的监督范式。
关键创新:OmniME的关键创新在于其统一的正负学习框架,能够同时关注动作编辑中的变化和不变性。与现有方法相比,OmniME不是简单地将文本信息融入到动作编辑过程中,而是通过精细的特征监督和运动保持机制,更好地控制编辑的范围和程度。此外,三元组语义对齐进一步提升了文本和动作之间的语义一致性。
关键设计:在回顾性特征监督中,使用了多层Transformer的特征进行监督,确保编辑过程的连贯性。运动保持机制通过计算源动作和目标动作的相似度,来指导模型关注需要修改的部分。三元组语义对齐使用了三元组损失函数,鼓励模型学习到文本、原始动作和编辑后动作之间的关系。具体的损失函数和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
OmniME在MotionFix和STANCE Adjustment数据集上取得了state-of-the-art的性能。实验结果表明,OmniME在编辑对齐方面显著优于现有方法,能够生成更加自然和符合文本描述的动作序列。代码和模型已开源。
🎯 应用场景
OmniME框架在虚拟现实、游戏开发、动画制作等领域具有广泛的应用前景。它可以用于生成符合特定文本描述的自然人体动作,例如,根据“跳跃”的描述生成跳跃的动作序列,或者根据“生气地走开”的描述修改现有动作。该技术可以大大提高动作生成和编辑的效率,降低人工成本,并为用户提供更加个性化的体验。
📄 摘要(原文)
Text-based human motion editing aims to modify existing motion sequences according to natural language instructions while maintaining the consistency of the original motion. Existing diffusion-based approaches often rely on heuristic similarity cues or coarse global conditioning, leading to motion distortion and suboptimal semantic alignment. The key challenge lies in balancing change (i.e. precisely editing target regions) and invariance (i.e. preserving unedited parts). To handle such challenge, we propose an Omni-Supervised Positive-Negative Learning framework, named OmniME. Our method integrates three complementary components: (1) retrospective feature supervision that enforces coarse-to-fine consistency across transformer layers,(2) motion preservation mechanism that focuses on subtle variations according to the source-target similarity, and (3) triplet-based semantic alignment that strengthens text-motion correspondence. Together, these components form a unified supervision paradigm that balances change and invariance. Extensive experiments on the MotionFix and STANCE Adjustment datasets demonstrate that OmniME achieves state-of-the-art performance in editing alignment, validating the effectiveness of our unified learning framework. Our source codes and models have been released at: https://github.com/rocket-ycyer/OmniME.git