A Self-Supervised Approach on Motion Calibration for Enhancing Physical Plausibility in Text-to-Motion

作者: Gahyeon Shim, Soogeun Park, Hyemin Ahn

分类: cs.CV

发布日期: 2026-02-20

💡 一句话要点

提出失真感知运动校准器DMC，提升文本到动作生成中的物理真实性。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 文本到动作生成 动作校准 物理合理性 自监督学习 运动捕捉

📋 核心要点

现有文本到动作生成模型难以保证生成动作的物理真实性，例如出现脚部漂浮等不合理现象。
提出失真感知运动校准器DMC，通过自监督学习，从扭曲的动作中恢复物理上合理的动作。
实验表明，DMC能显著降低FID分数，提高R-Precision，并减少动作穿透和漂浮伪影。

📝 摘要（中文）

本文提出了一种失真感知运动校准器(DMC)，这是一个后处理模块，用于改进文本到动作生成中物理上不合理的动作（例如，脚部漂浮），同时保持与原始文本描述的语义一致性。DMC采用自监督和数据驱动的方法，通过输入故意扭曲的动作和原始文本描述，学习获得物理上合理的动作，而不是依赖复杂的物理建模。DMC作为一个后处理模块，可以改进各种文本到动作生成模型生成的动作，并在提高物理合理性的同时增强语义一致性。实验结果表明，DMC在T2M上将FID分数降低了42.74%，在T2M-GPT上降低了13.20%，同时实现了最高的R-Precision。当应用于MoMask等高质量模型时，DMC通过减少33.0%的穿透以及将漂浮伪影调整到更接近真实参考，提高了运动的物理合理性。这些结果表明，DMC可以通过结合文本语义和物理合理性，作为任何文本到动作模型的有前途的后处理运动改进框架。

🔬 方法详解

问题定义：文本到动作生成旨在根据给定的文本描述生成相应的动作序列。然而，现有方法往往侧重于语义对齐，而忽略了生成动作的物理合理性，导致生成的动作可能违反物理定律，例如出现脚部漂浮、身体穿透等不自然的现象。这些物理不合理性降低了生成动作的质量和真实感。

核心思路：本文的核心思路是利用自监督学习，训练一个运动校准器，使其能够从物理上不合理的动作中恢复出合理的动作。具体来说，通过对原始动作进行扭曲，生成带有物理缺陷的动作，然后将这些扭曲的动作和原始文本描述作为输入，训练模型学习如何消除这些缺陷，从而提高生成动作的物理真实性。这种方法避免了复杂的物理建模，而是通过数据驱动的方式学习物理约束。

技术框架：DMC作为一个后处理模块，可以应用于任何文本到动作生成模型。其主要流程包括：1) 从文本到动作生成模型获取初始动作序列；2) 对初始动作序列进行扭曲，生成带有物理缺陷的动作；3) 将扭曲的动作和原始文本描述输入到DMC中；4) DMC输出校准后的动作序列，该序列在物理上更加合理，同时保持与原始文本描述的语义一致性。

关键创新：DMC的关键创新在于其自监督学习方法，它不需要人工标注的物理合理动作作为监督信号，而是通过对原始动作进行扭曲，自动生成训练数据。这种方法大大降低了数据标注的成本，并且可以灵活地应用于不同的动作类型和场景。此外，DMC将文本描述作为输入，确保校准后的动作仍然与原始文本的语义一致。

关键设计：DMC的网络结构未知，论文中没有详细描述。损失函数的设计目标是最小化校准后的动作与真实动作之间的差异，同时保持与原始文本描述的语义一致性。具体的损失函数形式未知，可能包括运动学损失、语义一致性损失等。

📊 实验亮点

实验结果表明，DMC在T2M数据集上将FID分数降低了42.74%，在T2M-GPT数据集上降低了13.20%，同时实现了最高的R-Precision。当应用于MoMask等高质量模型时，DMC通过减少33.0%的穿透以及将漂浮伪影调整到更接近真实参考，显著提高了运动的物理合理性。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、游戏开发、动画制作等领域。通过提高文本到动作生成结果的物理真实性，可以创建更加逼真和自然的虚拟角色动作，提升用户体验。此外，该方法还可以用于机器人控制，生成更加安全和可靠的机器人动作。

📄 摘要（原文）

Generating semantically aligned human motion from textual descriptions has made rapid progress, but ensuring both semantic and physical realism in motion remains a challenge. In this paper, we introduce the Distortion-aware Motion Calibrator (DMC), a post-hoc module that refines physically implausible motions (e.g., foot floating) while preserving semantic consistency with the original textual description. Rather than relying on complex physical modeling, we propose a self-supervised and data-driven approach, whereby DMC learns to obtain physically plausible motions when an intentionally distorted motion and the original textual descriptions are given as inputs. We evaluate DMC as a post-hoc module to improve motions obtained from various text-to-motion generation models and demonstrate its effectiveness in improving physical plausibility while enhancing semantic consistency. The experimental results show that DMC reduces FID score by 42.74% on T2M and 13.20% on T2M-GPT, while also achieving the highest R-Precision. When applied to high-quality models like MoMask, DMC improves the physical plausibility of motions by reducing penetration by 33.0% as well as adjusting floating artifacts closer to the ground-truth reference. These results highlight that DMC can serve as a promising post-hoc motion refinement framework for any kind of text-to-motion models by incorporating textual semantics and physical plausibility.

A Self-Supervised Approach on Motion Calibration for Enhancing Physical Plausibility in Text-to-Motion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理