InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing
作者: Yebin Yang, Di Wen, Lei Qi, Weitong Kong, Junwei Zheng, Ruiping Liu, Yufan Chen, Chengzhi Wu, Kailun Yang, Yuqian Fu, Danda Pani Paudel, Luc Van Gool, Kunyu Peng
分类: cs.CV, cs.RO, eess.IV
发布日期: 2026-03-13
备注: The dataset and code will be released at https://github.com/YNG916/InterEdit
🔗 代码/项目: GITHUB
💡 一句话要点
InterEdit:提出文本引导的多人3D动作编辑框架,并构建相应数据集。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 多人动作编辑 文本引导 3D动作生成 扩散模型 人机交互
📋 核心要点
- 现有的文本引导3D动作编辑主要集中在单人场景,缺乏对多人交互场景的探索,主要挑战在于数据稀缺和交互复杂性。
- InterEdit通过语义感知和交互感知的令牌对齐策略,在无分类器条件扩散模型中融入了对多人交互运动的理解和建模。
- 实验表明,InterEdit在文本一致性和编辑保真度方面均优于现有方法,并在提出的TMME基准上取得了领先性能。
📝 摘要(中文)
本文提出了多人3D动作编辑任务,即根据源动作和文本指令生成目标动作。为了支持该任务,作者构建了一个新的数据集InterEdit3D,该数据集包含人工标注的双人动作变化。同时,作者提出了一个文本引导的多人动作编辑(TMME)基准。此外,本文还提出了InterEdit,一个用于TMME的同步无分类器条件扩散模型。该模型引入了语义感知计划令牌对齐(Semantic-Aware Plan Token Alignment)与可学习令牌来捕获高级交互线索,并采用交互感知频率令牌对齐(Interaction-Aware Frequency Token Alignment)策略,使用DCT和能量池化来建模周期性运动动态。实验结果表明,InterEdit提高了文本到动作的一致性和编辑保真度,实现了最先进的TMME性能。
🔬 方法详解
问题定义:本文旨在解决文本引导的多人3D动作编辑问题。现有方法主要集中于单人动作编辑,忽略了多人交互的复杂性,缺乏对人际关系和动作同步的建模。此外,缺乏高质量的多人动作编辑数据集也限制了相关研究的进展。
核心思路:本文的核心思路是利用条件扩散模型,并结合语义感知和交互感知的令牌对齐策略,将文本指令融入到多人动作编辑过程中。通过学习高级交互线索和建模周期性运动动态,实现更自然、更符合文本描述的多人动作编辑。
技术框架:InterEdit采用同步无分类器条件扩散模型。整体流程包括:1) 输入源动作和文本指令;2) 通过语义感知计划令牌对齐模块提取高级交互线索;3) 通过交互感知频率令牌对齐模块建模周期性运动动态;4) 利用扩散模型生成目标动作。
关键创新:本文的关键创新在于:1) 提出了语义感知计划令牌对齐(Semantic-Aware Plan Token Alignment),利用可学习令牌捕获高级交互线索;2) 提出了交互感知频率令牌对齐(Interaction-Aware Frequency Token Alignment),使用DCT和能量池化建模周期性运动动态。这些创新使得模型能够更好地理解和生成多人交互动作。
关键设计:语义感知计划令牌对齐模块使用Transformer结构,通过可学习的令牌与文本和动作特征进行交互,从而提取高级交互线索。交互感知频率令牌对齐模块首先对动作进行DCT变换,然后使用能量池化提取主要频率成分,最后通过Transformer结构建模周期性运动动态。损失函数包括扩散模型的标准损失函数,以及用于鼓励文本一致性和编辑保真度的额外损失项。具体参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
InterEdit在TMME基准上取得了state-of-the-art的性能,显著提高了文本到动作的一致性和编辑保真度。具体实验结果表明,InterEdit在多个指标上均优于现有方法,证明了其在多人3D动作编辑方面的有效性。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏开发、动画制作等领域,例如,可以根据文本描述快速生成多人交互动画,或者对现有动作进行编辑和修改。此外,该技术还可以用于人机交互领域,例如,机器人可以根据人类的指令进行多人协作。
📄 摘要(原文)
Text-guided 3D motion editing has seen success in single-person scenarios, but its extension to multi-person settings is less explored due to limited paired data and the complexity of inter-person interactions. We introduce the task of multi-person 3D motion editing, where a target motion is generated from a source and a text instruction. To support this, we propose InterEdit3D, a new dataset with manual two-person motion change annotations, and a Text-guided Multi-human Motion Editing (TMME) benchmark. We present InterEdit, a synchronized classifier-free conditional diffusion model for TMME. It introduces Semantic-Aware Plan Token Alignment with learnable tokens to capture high-level interaction cues and an Interaction-Aware Frequency Token Alignment strategy using DCT and energy pooling to model periodic motion dynamics. Experiments show that InterEdit improves text-to-motion consistency and edit fidelity, achieving state-of-the-art TMME performance. The dataset and code will be released at https://github.com/YNG916/InterEdit.