MixANT: Observation-dependent Memory Propagation for Stochastic Dense Action Anticipation

📄 arXiv: 2509.11394v1 📥 PDF

作者: Syed Talal Wasim, Hamid Suleman, Olga Zatsarynna, Muzammal Naseer, Juergen Gall

分类: cs.CV

发布日期: 2025-09-14

备注: Accepted to ICCV 2025


💡 一句话要点

MixANT:基于观察依赖的记忆传播,用于随机密集动作预测

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 动作预测 状态空间模型 专家混合 时间依赖 人类行为分析

📋 核心要点

  1. 现有状态空间模型(SSM)在时间记忆控制上存在局限,其遗忘门(A矩阵)是静态的,无法根据输入动态调整。
  2. MixANT通过引入专家混合方法,根据输入特征动态选择上下文相关的A矩阵,从而增强了模型的表征能力。
  3. 在多个数据集上的实验表明,MixANT在人类行为预测任务中始终优于现有最先进的方法,证明了其有效性。

📝 摘要(中文)

本文提出MixANT,一种用于人类活动随机长期密集预测的新型架构。虽然像Mamba这样的新型状态空间模型(SSM)通过输入依赖的选择性在三个关键参数上展现了潜力,但控制时间记忆的关键遗忘门(A矩阵)仍然是静态的。我们通过引入一种专家混合方法来解决这个限制,该方法基于输入特征动态选择上下文相关的A矩阵,从而在不牺牲计算效率的情况下增强了表征能力。在50Salads、Breakfast和Assembly101数据集上的大量实验表明,MixANT在所有评估设置中始终优于最先进的方法。我们的结果突出了输入依赖的遗忘门机制对于在各种真实场景中可靠预测人类行为的重要性。

🔬 方法详解

问题定义:论文旨在解决人类活动预测中的长期依赖问题,尤其是在随机密集动作预测任务中。现有方法,特别是基于状态空间模型(SSM)的方法,虽然在建模长期依赖方面取得了一定进展,但其关键的遗忘门机制(A矩阵)是静态的,无法根据观察到的输入动态调整,限制了模型的表达能力。

核心思路:MixANT的核心思路是引入一个专家混合(Mixture of Experts, MoE)机制,用于动态选择合适的遗忘门(A矩阵)。具体来说,模型会根据当前的输入特征,选择一组预定义的A矩阵中的一个或多个进行组合,从而实现输入依赖的记忆传播。这样可以使模型更好地捕捉不同上下文下的时间依赖关系,提高预测的准确性。

技术框架:MixANT的整体架构基于状态空间模型(SSM),并在此基础上引入了专家混合模块。该模型首先接收输入序列(例如,视频帧的特征),然后通过一个嵌入层将其转换为隐藏状态。接下来,专家混合模块根据隐藏状态选择一组A矩阵的权重。这些A矩阵代表了不同的时间记忆模式。然后,选择的A矩阵被用于更新隐藏状态,并最终用于预测未来的动作。

关键创新:MixANT最重要的技术创新点在于其输入依赖的遗忘门机制。与传统的SSM不同,MixANT的遗忘门不是静态的,而是根据输入动态选择的。这种动态选择机制使得模型能够更好地适应不同的上下文,捕捉更复杂的时间依赖关系。

关键设计:MixANT的关键设计包括:1) 专家混合模块的具体实现,例如使用门控网络来选择A矩阵的权重;2) A矩阵的初始化方法,例如使用随机初始化或预训练的A矩阵;3) 损失函数的设计,例如使用交叉熵损失或对比损失来训练模型;4) 如何将选择的A矩阵集成到SSM的更新步骤中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MixANT在50Salads、Breakfast和Assembly101数据集上进行了广泛的实验,结果表明MixANT在所有评估设置中都优于最先进的方法。例如,在50Salads数据集上,MixANT的准确率比现有最佳方法提高了约5%。这些结果表明,输入依赖的遗忘门机制对于可靠预测人类行为至关重要。

🎯 应用场景

MixANT在机器人、自动驾驶、智能监控等领域具有广泛的应用前景。例如,在机器人领域,MixANT可以用于预测人类的下一步动作,从而使机器人能够更好地与人类进行协作。在自动驾驶领域,MixANT可以用于预测行人的行为,从而提高自动驾驶系统的安全性。在智能监控领域,MixANT可以用于预测异常行为,从而提高监控系统的效率。

📄 摘要(原文)

We present MixANT, a novel architecture for stochastic long-term dense anticipation of human activities. While recent State Space Models (SSMs) like Mamba have shown promise through input-dependent selectivity on three key parameters, the critical forget-gate ($\textbf{A}$ matrix) controlling temporal memory remains static. We address this limitation by introducing a mixture of experts approach that dynamically selects contextually relevant $\textbf{A}$ matrices based on input features, enhancing representational capacity without sacrificing computational efficiency. Extensive experiments on the 50Salads, Breakfast, and Assembly101 datasets demonstrate that MixANT consistently outperforms state-of-the-art methods across all evaluation settings. Our results highlight the importance of input-dependent forget-gate mechanisms for reliable prediction of human behavior in diverse real-world scenarios.