InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing

作者: Yebin Yang, Di Wen, Lei Qi, Weitong Kong, Junwei Zheng, Ruiping Liu, Yufan Chen, Chengzhi Wu, Kailun Yang, Yuqian Fu, Danda Pani Paudel, Luc Van Gool, Kunyu Peng

分类: cs.CV, cs.RO, eess.IV

发布日期: 2026-03-13

备注: The dataset and code will be released at https://github.com/YNG916/InterEdit

🔗 代码/项目: GITHUB

💡 一句话要点

InterEdit：提出文本引导的多人3D动作编辑框架，并构建相应数据集。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 多人动作编辑 文本引导 3D动作生成 扩散模型 人机交互

📋 核心要点

现有的文本引导3D动作编辑主要集中在单人场景，缺乏对多人交互场景的探索，主要挑战在于数据稀缺和交互复杂性。
InterEdit通过语义感知和交互感知的令牌对齐策略，在无分类器条件扩散模型中融入了对多人交互运动的理解和建模。
实验表明，InterEdit在文本一致性和编辑保真度方面均优于现有方法，并在提出的TMME基准上取得了领先性能。

📝 摘要（中文）

本文提出了多人3D动作编辑任务，即根据源动作和文本指令生成目标动作。为了支持该任务，作者构建了一个新的数据集InterEdit3D，该数据集包含人工标注的双人动作变化。同时，作者提出了一个文本引导的多人动作编辑（TMME）基准。此外，本文还提出了InterEdit，一个用于TMME的同步无分类器条件扩散模型。该模型引入了语义感知计划令牌对齐（Semantic-Aware Plan Token Alignment）与可学习令牌来捕获高级交互线索，并采用交互感知频率令牌对齐（Interaction-Aware Frequency Token Alignment）策略，使用DCT和能量池化来建模周期性运动动态。实验结果表明，InterEdit提高了文本到动作的一致性和编辑保真度，实现了最先进的TMME性能。

🔬 方法详解

问题定义：本文旨在解决文本引导的多人3D动作编辑问题。现有方法主要集中于单人动作编辑，忽略了多人交互的复杂性，缺乏对人际关系和动作同步的建模。此外，缺乏高质量的多人动作编辑数据集也限制了相关研究的进展。

核心思路：本文的核心思路是利用条件扩散模型，并结合语义感知和交互感知的令牌对齐策略，将文本指令融入到多人动作编辑过程中。通过学习高级交互线索和建模周期性运动动态，实现更自然、更符合文本描述的多人动作编辑。

技术框架：InterEdit采用同步无分类器条件扩散模型。整体流程包括：1) 输入源动作和文本指令；2) 通过语义感知计划令牌对齐模块提取高级交互线索；3) 通过交互感知频率令牌对齐模块建模周期性运动动态；4) 利用扩散模型生成目标动作。

关键创新：本文的关键创新在于：1) 提出了语义感知计划令牌对齐（Semantic-Aware Plan Token Alignment），利用可学习令牌捕获高级交互线索；2) 提出了交互感知频率令牌对齐（Interaction-Aware Frequency Token Alignment），使用DCT和能量池化建模周期性运动动态。这些创新使得模型能够更好地理解和生成多人交互动作。

关键设计：语义感知计划令牌对齐模块使用Transformer结构，通过可学习的令牌与文本和动作特征进行交互，从而提取高级交互线索。交互感知频率令牌对齐模块首先对动作进行DCT变换，然后使用能量池化提取主要频率成分，最后通过Transformer结构建模周期性运动动态。损失函数包括扩散模型的标准损失函数，以及用于鼓励文本一致性和编辑保真度的额外损失项。具体参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

InterEdit在TMME基准上取得了state-of-the-art的性能，显著提高了文本到动作的一致性和编辑保真度。具体实验结果表明，InterEdit在多个指标上均优于现有方法，证明了其在多人3D动作编辑方面的有效性。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、动画制作等领域，例如，可以根据文本描述快速生成多人交互动画，或者对现有动作进行编辑和修改。此外，该技术还可以用于人机交互领域，例如，机器人可以根据人类的指令进行多人协作。

📄 摘要（原文）

Text-guided 3D motion editing has seen success in single-person scenarios, but its extension to multi-person settings is less explored due to limited paired data and the complexity of inter-person interactions. We introduce the task of multi-person 3D motion editing, where a target motion is generated from a source and a text instruction. To support this, we propose InterEdit3D, a new dataset with manual two-person motion change annotations, and a Text-guided Multi-human Motion Editing (TMME) benchmark. We present InterEdit, a synchronized classifier-free conditional diffusion model for TMME. It introduces Semantic-Aware Plan Token Alignment with learnable tokens to capture high-level interaction cues and an Interaction-Aware Frequency Token Alignment strategy using DCT and energy pooling to model periodic motion dynamics. Experiments show that InterEdit improves text-to-motion consistency and edit fidelity, achieving state-of-the-art TMME performance. The dataset and code will be released at https://github.com/YNG916/InterEdit.

InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理