A Self-Supervised Approach on Motion Calibration for Enhancing Physical Plausibility in Text-to-Motion

📄 arXiv: 2602.18199v1 📥 PDF

作者: Gahyeon Shim, Soogeun Park, Hyemin Ahn

分类: cs.CV

发布日期: 2026-02-20


💡 一句话要点

提出失真感知运动校准器DMC,提升文本到动作生成中的物理真实性。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 文本到动作生成 动作校准 物理合理性 自监督学习 运动捕捉

📋 核心要点

  1. 现有文本到动作生成模型难以保证生成动作的物理真实性,例如出现脚部漂浮等不合理现象。
  2. 提出失真感知运动校准器DMC,通过自监督学习,从扭曲的动作中恢复物理上合理的动作。
  3. 实验表明,DMC能显著降低FID分数,提高R-Precision,并减少动作穿透和漂浮伪影。

📝 摘要(中文)

本文提出了一种失真感知运动校准器(DMC),这是一个后处理模块,用于改进文本到动作生成中物理上不合理的动作(例如,脚部漂浮),同时保持与原始文本描述的语义一致性。DMC采用自监督和数据驱动的方法,通过输入故意扭曲的动作和原始文本描述,学习获得物理上合理的动作,而不是依赖复杂的物理建模。DMC作为一个后处理模块,可以改进各种文本到动作生成模型生成的动作,并在提高物理合理性的同时增强语义一致性。实验结果表明,DMC在T2M上将FID分数降低了42.74%,在T2M-GPT上降低了13.20%,同时实现了最高的R-Precision。当应用于MoMask等高质量模型时,DMC通过减少33.0%的穿透以及将漂浮伪影调整到更接近真实参考,提高了运动的物理合理性。这些结果表明,DMC可以通过结合文本语义和物理合理性,作为任何文本到动作模型的有前途的后处理运动改进框架。

🔬 方法详解

问题定义:文本到动作生成旨在根据给定的文本描述生成相应的动作序列。然而,现有方法往往侧重于语义对齐,而忽略了生成动作的物理合理性,导致生成的动作可能违反物理定律,例如出现脚部漂浮、身体穿透等不自然的现象。这些物理不合理性降低了生成动作的质量和真实感。

核心思路:本文的核心思路是利用自监督学习,训练一个运动校准器,使其能够从物理上不合理的动作中恢复出合理的动作。具体来说,通过对原始动作进行扭曲,生成带有物理缺陷的动作,然后将这些扭曲的动作和原始文本描述作为输入,训练模型学习如何消除这些缺陷,从而提高生成动作的物理真实性。这种方法避免了复杂的物理建模,而是通过数据驱动的方式学习物理约束。

技术框架:DMC作为一个后处理模块,可以应用于任何文本到动作生成模型。其主要流程包括:1) 从文本到动作生成模型获取初始动作序列;2) 对初始动作序列进行扭曲,生成带有物理缺陷的动作;3) 将扭曲的动作和原始文本描述输入到DMC中;4) DMC输出校准后的动作序列,该序列在物理上更加合理,同时保持与原始文本描述的语义一致性。

关键创新:DMC的关键创新在于其自监督学习方法,它不需要人工标注的物理合理动作作为监督信号,而是通过对原始动作进行扭曲,自动生成训练数据。这种方法大大降低了数据标注的成本,并且可以灵活地应用于不同的动作类型和场景。此外,DMC将文本描述作为输入,确保校准后的动作仍然与原始文本的语义一致。

关键设计:DMC的网络结构未知,论文中没有详细描述。损失函数的设计目标是最小化校准后的动作与真实动作之间的差异,同时保持与原始文本描述的语义一致性。具体的损失函数形式未知,可能包括运动学损失、语义一致性损失等。

📊 实验亮点

实验结果表明,DMC在T2M数据集上将FID分数降低了42.74%,在T2M-GPT数据集上降低了13.20%,同时实现了最高的R-Precision。当应用于MoMask等高质量模型时,DMC通过减少33.0%的穿透以及将漂浮伪影调整到更接近真实参考,显著提高了运动的物理合理性。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、游戏开发、动画制作等领域。通过提高文本到动作生成结果的物理真实性,可以创建更加逼真和自然的虚拟角色动作,提升用户体验。此外,该方法还可以用于机器人控制,生成更加安全和可靠的机器人动作。

📄 摘要(原文)

Generating semantically aligned human motion from textual descriptions has made rapid progress, but ensuring both semantic and physical realism in motion remains a challenge. In this paper, we introduce the Distortion-aware Motion Calibrator (DMC), a post-hoc module that refines physically implausible motions (e.g., foot floating) while preserving semantic consistency with the original textual description. Rather than relying on complex physical modeling, we propose a self-supervised and data-driven approach, whereby DMC learns to obtain physically plausible motions when an intentionally distorted motion and the original textual descriptions are given as inputs. We evaluate DMC as a post-hoc module to improve motions obtained from various text-to-motion generation models and demonstrate its effectiveness in improving physical plausibility while enhancing semantic consistency. The experimental results show that DMC reduces FID score by 42.74% on T2M and 13.20% on T2M-GPT, while also achieving the highest R-Precision. When applied to high-quality models like MoMask, DMC improves the physical plausibility of motions by reducing penetration by 33.0% as well as adjusting floating artifacts closer to the ground-truth reference. These results highlight that DMC can serve as a promising post-hoc motion refinement framework for any kind of text-to-motion models by incorporating textual semantics and physical plausibility.