Dynamic Full-body Motion Agent with Object Interaction via Blending Pre-trained Modular Controllers
作者: Sanghyeok Nam, Byoungjun Kim, Daehyung Park, Tae-Kyun Kim
分类: cs.CV
发布日期: 2026-05-12
备注: CVPR Findings 2026
💡 一句话要点
提出一种融合预训练模块化控制器的动态全身人-物交互运动生成框架
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人-物交互 动态运动生成 模仿学习 预训练模型 运动组合
📋 核心要点
- 现有HOI数据集和预训练智能体的局限性导致难以生成逼真的人-物动态交互运动。
- 该论文提出一种框架,通过结合预训练的运动先验和模仿智能体,实现动态和长期的人-物交互运动。
- 实验结果表明,该方法在动态HOI任务中显著提高了成功率,并减少了训练时间。
📝 摘要(中文)
生成物理上合理的人-物交互(HOI)动态运动仍然具有挑战性,这主要是由于现有的HOI数据集仅限于静态交互,以及预训练的智能体只能实现没有物体的动态全身运动或静态HOI运动。最近的工作,如InsActor和CLoSD,在规划和执行阶段生成HOI运动,但仍限于静态或短期接触,例如击打。本文提出了一种框架,通过在规划和执行阶段结合预训练的运动先验和模仿智能体,来实现动态和长期交互运动,例如跑步时拿着桌子。在规划阶段,我们使用预训练的人体运动扩散模型增强HOI数据集的动态先验,然后生成物体轨迹。这规划了动态HOI序列。在执行阶段,一个组合器网络融合了专门用于动态人体运动或静态HOI运动的预训练模仿智能体的动作,从而实现了它们互补技能的时空组合。我们的方法在动态HOI任务中始终优于相关的现有技术,同时保持了交互。此外,通过我们的组合器融合预训练的专家,可以在显著减少的训练时间内实现有竞争力的性能。消融研究验证了我们的增强和组合器融合的有效性。
🔬 方法详解
问题定义:现有的人-物交互(HOI)数据集通常只包含静态交互,而预训练的智能体要么擅长动态的全身运动但没有物体交互,要么擅长静态的HOI运动。因此,如何生成具有物理合理性的动态HOI运动,特别是涉及长期交互的运动,是一个挑战。现有方法在处理动态和长期交互方面存在局限性。
核心思路:该论文的核心思路是将预训练的运动先验知识与模仿学习相结合,利用各自的优势。具体来说,使用预训练的人体运动扩散模型提供动态运动的先验知识,并使用模仿学习训练的智能体来控制人物和物体的交互。通过一个组合器网络,将这两个智能体的动作进行融合,从而生成既动态又具有交互性的运动。
技术框架:该框架包含两个主要阶段:规划阶段和执行阶段。在规划阶段,首先使用预训练的人体运动扩散模型增强HOI数据集,生成动态运动先验。然后,基于这些先验生成物体轨迹,从而规划出动态的HOI序列。在执行阶段,使用一个组合器网络融合两个预训练的模仿智能体的动作:一个擅长动态人体运动,另一个擅长静态HOI运动。组合器网络根据当前状态,动态地调整两个智能体的权重,从而生成最终的运动。
关键创新:该论文的关键创新在于提出了一个组合器网络,能够有效地融合来自不同预训练智能体的动作。这种融合方式允许模型利用预训练智能体的互补技能,从而生成更复杂、更自然的HOI运动。此外,使用预训练的扩散模型增强HOI数据集,为模型提供了更丰富的动态运动先验知识。
关键设计:组合器网络的设计是关键。它接收当前的人物和物体状态作为输入,并输出两个预训练智能体的权重。这些权重用于加权融合两个智能体的动作。损失函数的设计也至关重要,需要平衡人物运动的自然性和物体交互的合理性。具体的网络结构和损失函数细节在论文中进行了详细描述,但摘要中未提及。
🖼️ 关键图片
📊 实验亮点
该方法在动态HOI任务中取得了显著的性能提升。实验结果表明,该方法在成功率方面优于现有的方法,并且能够在显著减少的训练时间内达到有竞争力的性能。消融研究验证了数据增强和组合器融合的有效性。具体的性能数据和对比基线在摘要中未提供,需要在论文正文中查找。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏、机器人等领域。例如,可以用于生成更逼真的虚拟角色动画,使虚拟角色能够与环境中的物体进行自然的交互。在机器人领域,可以用于控制机器人进行复杂的人-物协作任务,例如帮助人类搬运重物或进行精细的手工操作。该技术还有潜力应用于康复训练,通过模拟各种人-物交互场景,帮助患者恢复运动能力。
📄 摘要(原文)
Generating physically plausible dynamic motions of human-object interaction (HOI) remains challenging, mainly due to existing HOI datasets limited to static interactions, and pretrained agents capable of either dynamic full-body motions without objects or static HOI motions. Recent works such as InsActor and CLoSD generate HOI motions in planning and execution stages, are yet limited to either static or short-term contacts e.g. striking. In this work, we propose a framework that fulfills dynamic and long-term interaction motions such as running while holding a table, by combining pretrained motion priors and imitation agents in planning and execution stages. In the planning stage, we augment HOI datasets with dynamic priors from a pretrained human motion diffusion model, followed by object trajectory generation. This plans dynamic HOI sequences. In the execution stage, a composer network blends actions of pretrained imitation agents specialized either for dynamic human motions or static HOI motions, enabling spatio-temporal composition of their complementary skills. Our method over relevant prior-arts consistently improves success rates while maintaining interaction for dynamic HOI tasks. Furthermore, blending pretrained experts with our composer achieves competitive performance in significantly reduced training time. Ablation studies validate the effectiveness of our augmentation and composer blending.