Spatiotemporal-Untrammelled Mixture of Experts for Multi-Person Motion Prediction
作者: Zheng Yin, Chengjian Li, Xiangbo Shu, Meiqi Cao, Rui Yan, Jinhui Tang
分类: cs.CV
发布日期: 2025-12-25
备注: 12 pages, 7 figures, Accepted by AAAI 2026 (oral)
🔗 代码/项目: GITHUB
💡 一句话要点
提出时空解耦混合专家网络ST-MoE,用于提升多人运动预测的精度与效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 多人运动预测 混合专家网络 时空建模 Mamba架构 深度学习
📋 核心要点
- 现有方法在捕捉多人运动的时空依赖关系时,依赖位置编码导致时空表示不够灵活,且计算成本高昂。
- ST-MoE通过集成四种时空专家,并利用双向时空Mamba结构,自适应地挖掘复杂时空模式,降低计算开销。
- 实验结果表明,ST-MoE在精度上超越现有方法,同时显著减少了模型参数和训练时间。
📝 摘要(中文)
本文提出时空解耦混合专家网络(ST-MoE),旨在全面且灵活地捕捉人类运动中复杂的时空依赖关系,从而改进多人运动预测。现有方法主要存在两个局限性:一是依赖位置编码导致时空表示不够灵活;二是传统注意力机制的平方时间复杂度导致计算成本过高。为了克服这些限制,ST-MoE集成了四种不同的时空专家,分别擅长捕捉不同的空间或时间依赖关系,从而自适应地挖掘人类运动中的复杂时空模式。为了降低集成多个专家带来的潜在计算开销,模型采用双向时空Mamba作为专家,通过不同的双向时空Mamba组合实现模型效率和参数经济性。在四个多人基准数据集上的大量实验表明,该方法不仅优于最先进的精度,而且模型参数减少了41.38%,训练速度提高了3.6倍。
🔬 方法详解
问题定义:现有的多人运动预测方法在捕捉复杂时空依赖关系时存在局限性。一方面,它们通常依赖于位置编码来表示时空信息,这种方式不够灵活,难以充分捕捉运动的复杂性。另一方面,传统注意力机制的计算复杂度为平方级别,导致计算成本很高,难以扩展到大规模场景。
核心思路:本文的核心思路是利用混合专家(Mixture of Experts, MoE)模型,并结合Mamba架构,来更有效地捕捉时空依赖关系。具体来说,设计了四种不同的时空专家,每个专家专注于捕捉特定的空间或时间依赖关系。通过MoE机制,模型可以自适应地选择合适的专家来处理不同的输入,从而提高模型的灵活性和表达能力。同时,使用Mamba架构作为专家,可以降低计算复杂度,提高模型的效率。
技术框架:ST-MoE模型的整体架构包含以下几个主要模块:1) 输入嵌入层:将输入的运动数据嵌入到高维空间中。2) 时空专家层:包含四种不同的时空专家,每个专家使用双向时空Mamba架构。3) MoE层:根据输入数据,动态地选择合适的专家组合。4) 输出层:将专家的输出进行融合,并预测未来的运动轨迹。整个流程是,输入运动数据经过嵌入后,通过MoE层选择合适的专家组合,然后将输入传递给选定的专家进行处理,最后将专家的输出进行融合,得到最终的预测结果。
关键创新:ST-MoE的关键创新在于以下几个方面:1) 提出了时空解耦的混合专家网络,可以更灵活地捕捉时空依赖关系。2) 使用双向时空Mamba架构作为专家,降低了计算复杂度。3) 设计了四种不同的时空专家,每个专家专注于捕捉特定的空间或时间依赖关系。与现有方法的本质区别在于,ST-MoE不再依赖于位置编码来表示时空信息,而是通过混合专家网络自适应地学习时空依赖关系。
关键设计:在ST-MoE中,每个时空专家都使用双向时空Mamba架构。Mamba架构包含选择机制和线性循环扫描模块。选择机制用于动态地选择重要的信息,线性循环扫描模块用于高效地处理序列数据。四种时空专家的具体设计如下:1) Temporal Mamba + Spatial Mamba;2) Temporal Mamba + Spatial Attention;3) Spatial Mamba + Temporal Mamba;4) Spatial Mamba + Temporal Attention。损失函数采用常用的均方误差(Mean Squared Error, MSE)损失函数,用于衡量预测轨迹与真实轨迹之间的差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ST-MoE在四个多人运动基准数据集上均取得了优于现有最佳方法的性能。具体来说,ST-MoE在精度上超越了现有方法,同时模型参数减少了41.38%,训练速度提高了3.6倍。这些结果表明,ST-MoE在精度和效率方面都具有显著优势。
🎯 应用场景
ST-MoE在多人运动预测领域具有广泛的应用前景,例如自动驾驶、人机交互、虚拟现实和监控系统。更准确的运动预测可以提高自动驾驶车辆的安全性,改善人机交互的自然性,增强虚拟现实的沉浸感,并提升监控系统的预警能力。该研究的未来影响在于推动运动预测技术的发展,并为相关应用提供更可靠的基础。
📄 摘要(原文)
Comprehensively and flexibly capturing the complex spatio-temporal dependencies of human motion is critical for multi-person motion prediction. Existing methods grapple with two primary limitations: i) Inflexible spatiotemporal representation due to reliance on positional encodings for capturing spatiotemporal information. ii) High computational costs stemming from the quadratic time complexity of conventional attention mechanisms. To overcome these limitations, we propose the Spatiotemporal-Untrammelled Mixture of Experts (ST-MoE), which flexibly explores complex spatio-temporal dependencies in human motion and significantly reduces computational cost. To adaptively mine complex spatio-temporal patterns from human motion, our model incorporates four distinct types of spatiotemporal experts, each specializing in capturing different spatial or temporal dependencies. To reduce the potential computational overhead while integrating multiple experts, we introduce bidirectional spatiotemporal Mamba as experts, each sharing bidirectional temporal and spatial Mamba in distinct combinations to achieve model efficiency and parameter economy. Extensive experiments on four multi-person benchmark datasets demonstrate that our approach not only outperforms state-of-art in accuracy but also reduces model parameter by 41.38% and achieves a 3.6x speedup in training. The code is available at https://github.com/alanyz106/ST-MoE.