InterSyn: Interleaved Learning for Dynamic Motion Synthesis in the Wild

📄 arXiv: 2508.10297v1 📥 PDF

作者: Yiyi Ma, Yuanzhi Liang, Xiu Li, Chi Zhang, Xuelong Li

分类: cs.CV

发布日期: 2025-08-14

备注: Accepted by ICCV2025


💡 一句话要点

InterSyn:通过交错学习实现野外场景下动态运动合成

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 运动合成 交互运动 交错学习 动态建模 多角色交互

📋 核心要点

  1. 现有方法在处理运动合成时,通常将单人运动和多人交互运动分离建模,忽略了真实场景中两者之间的动态关联和细微协调。
  2. InterSyn采用交错学习策略,从第一人称视角统一建模单人和交互行为,从而捕捉自然、动态的交互和角色间的协调。
  3. 实验结果表明,InterSyn生成的运动序列在文本-运动对齐性和多样性方面均优于现有方法,为运动合成设立了新基准。

📝 摘要(中文)

本文提出了一种用于运动合成的交错学习框架InterSyn,旨在通过学习整合了单人和多人动态的运动来生成逼真的交互运动。与以往将这些成分分开处理的方法不同,InterSyn采用交错学习策略,从第一人称视角以统一的范式对单人和交互行为进行联合建模,以捕捉真实场景中自然、动态的交互和细微的协调。我们的框架包含两个关键模块:交错交互合成(INS)模块,用于支持多角色交互;相对协调细化(REC)模块,用于细化相互动态并确保角色之间的同步运动。实验结果表明,与最近的方法相比,InterSyn生成的运动序列表现出更高的文本-运动对齐性和改进的多样性,为鲁棒和自然的运动合成设定了新的基准。此外,我们的代码将在未来开源,以促进该领域进一步的研究和发展。

🔬 方法详解

问题定义:论文旨在解决在野外场景下,如何生成逼真、自然的交互运动的问题。现有方法通常将单人运动和多人交互运动分开处理,忽略了两者之间的动态关联和细微协调,导致合成的运动不够自然和真实。此外,现有方法在处理多角色交互时,难以保证角色之间的运动同步和协调。

核心思路:InterSyn的核心思路是采用交错学习策略,将单人运动和多人交互运动整合到一个统一的框架中进行学习。通过这种方式,模型可以更好地理解单人运动和交互运动之间的关系,从而生成更自然、真实的交互运动。此外,InterSyn还引入了相对协调细化模块,以确保角色之间的运动同步和协调。

技术框架:InterSyn框架包含两个主要模块:交错交互合成(INS)模块和相对协调细化(REC)模块。INS模块负责联合建模单人和交互行为,从第一人称视角生成初始的交互运动。REC模块负责细化相互动态,并确保角色之间的运动同步和协调。整个框架的流程是:首先,使用INS模块生成初始的交互运动;然后,使用REC模块对初始运动进行细化,得到最终的合成运动。

关键创新:InterSyn的关键创新在于采用了交错学习策略,将单人运动和多人交互运动整合到一个统一的框架中进行学习。与现有方法相比,InterSyn能够更好地理解单人运动和交互运动之间的关系,从而生成更自然、真实的交互运动。此外,REC模块的引入也提高了多角色交互运动的同步性和协调性。

关键设计:INS模块和REC模块的具体网络结构未知。损失函数的设计也未知。论文中提到从第一人称视角进行建模,这可能涉及到坐标系的转换和相对位置关系的建模。具体实现细节需要在开源代码后进一步分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,InterSyn生成的运动序列在文本-运动对齐性和多样性方面均优于现有方法,为鲁棒和自然的运动合成设定了新的基准。具体的性能数据和对比基线需要在论文中查找,这里未知。

🎯 应用场景

InterSyn具有广泛的应用前景,例如虚拟现实、游戏开发、动画制作、机器人控制等领域。它可以用于生成逼真、自然的虚拟角色交互动画,提高用户体验。此外,InterSyn还可以用于训练机器人,使其能够更好地与人类进行交互。

📄 摘要(原文)

We present Interleaved Learning for Motion Synthesis (InterSyn), a novel framework that targets the generation of realistic interaction motions by learning from integrated motions that consider both solo and multi-person dynamics. Unlike previous methods that treat these components separately, InterSyn employs an interleaved learning strategy to capture the natural, dynamic interactions and nuanced coordination inherent in real-world scenarios. Our framework comprises two key modules: the Interleaved Interaction Synthesis (INS) module, which jointly models solo and interactive behaviors in a unified paradigm from a first-person perspective to support multiple character interactions, and the Relative Coordination Refinement (REC) module, which refines mutual dynamics and ensures synchronized motions among characters. Experimental results show that the motion sequences generated by InterSyn exhibit higher text-to-motion alignment and improved diversity compared with recent methods, setting a new benchmark for robust and natural motion synthesis. Additionally, our code will be open-sourced in the future to promote further research and development in this area.