OnlineHOI: Towards Online Human-Object Interaction Generation and Perception

📄 arXiv: 2509.12250v1 📥 PDF

作者: Yihong Ji, Yunze Liu, Yiyao Zhuo, Weijiang Yu, Fei Ma, Joshua Huang, Fei Yu

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-09-12

备注: Accepted at ACM MM 2025


💡 一句话要点

提出OnlineHOI框架,用于在线人-物交互的生成与感知任务

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人-物交互 在线感知 在线生成 Mamba架构 记忆机制 序列建模 机器人 AR/VR

📋 核心要点

  1. 现有HOI方法主要在离线环境下进行,无法有效处理现实世界中在线HOI生成与感知任务。
  2. 提出OnlineHOI框架,利用Mamba架构处理流数据,并结合记忆机制有效整合历史信息。
  3. 在Core4D、OAKINK2和HOI4D数据集上验证了OnlineHOI框架的有效性,取得了state-of-the-art的结果。

📝 摘要(中文)

人-物交互(HOI)的感知和生成对于机器人、AR/VR和人类行为理解等领域至关重要。然而,目前的方法通常在离线环境中建模,即每个时间步的信息可以从整个交互序列中获取。与此相反,在现实场景中,每个时间步可用的信息仅来自当前时刻和历史数据,即在线环境。我们发现离线方法在在线环境中表现不佳。基于此,我们提出了两个新任务:在线HOI生成和感知。为了解决这些任务,我们引入了OnlineHOI框架,这是一个基于Mamba框架并采用记忆机制的网络架构。通过利用Mamba强大的流数据建模能力和记忆机制对历史信息的有效整合,我们在Core4D和OAKINK2在线生成任务以及在线HOI4D感知任务上取得了最先进的结果。

🔬 方法详解

问题定义:现有的人-物交互(HOI)生成和感知方法主要关注离线场景,即假设可以访问整个交互序列的信息。然而,在实际应用中,例如机器人操作或AR/VR交互,系统只能获取当前时刻和过去的历史信息。因此,离线方法无法直接应用于在线HOI生成和感知任务,导致性能显著下降。论文旨在解决在线HOI生成和感知问题,即仅利用当前时刻和历史信息进行HOI的预测和生成。

核心思路:论文的核心思路是利用Mamba架构强大的序列建模能力,以及记忆机制对历史信息的有效整合,从而实现对在线HOI的准确生成和感知。Mamba架构擅长处理流数据,能够捕捉时间依赖关系,而记忆机制则允许模型回顾和利用过去的信息,弥补在线场景下信息缺失的问题。

技术框架:OnlineHOI框架主要包含以下几个模块:首先,利用视觉特征提取器从输入图像或视频帧中提取人体和物体的视觉特征。然后,将这些特征输入到基于Mamba的序列建模模块中,该模块负责捕捉HOI的时序动态。为了整合历史信息,框架引入了记忆模块,该模块存储了过去时刻的HOI状态,并将其与当前时刻的特征进行融合。最后,通过HOI预测模块,预测当前时刻的HOI类别和参数。

关键创新:论文的关键创新在于将Mamba架构和记忆机制相结合,用于解决在线HOI生成和感知问题。Mamba架构相比于传统的RNN或Transformer,具有更强的序列建模能力和更高的计算效率,更适合处理流数据。记忆机制则允许模型回顾和利用过去的信息,从而提高在线HOI的预测精度。

关键设计:在Mamba模块中,论文采用了选择性状态空间模型(Selective State Space Model,S6),该模型能够根据输入动态地调整状态转移矩阵,从而更好地捕捉HOI的时序动态。在记忆模块中,论文采用了基于注意力机制的记忆检索方法,该方法能够根据当前时刻的特征,从记忆中检索出最相关的历史信息。损失函数方面,论文采用了交叉熵损失函数和回归损失函数,分别用于HOI类别预测和参数回归。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OnlineHOI框架在Core4D和OAKINK2在线生成任务以及在线HOI4D感知任务上取得了state-of-the-art的结果。实验结果表明,OnlineHOI框架能够有效地利用历史信息,显著提高在线HOI的预测精度。与现有的离线方法相比,OnlineHOI框架在在线环境下的性能提升尤为明显。

🎯 应用场景

该研究成果可广泛应用于机器人、AR/VR和人类行为理解等领域。例如,在机器人操作中,机器人可以利用该技术实时感知人类的意图,从而更安全、更有效地与人类进行协作。在AR/VR中,该技术可以增强虚拟环境的交互性,使用户能够更自然地与虚拟物体进行交互。此外,该技术还可以用于分析人类行为,例如运动分析和安全监控。

📄 摘要(原文)

The perception and generation of Human-Object Interaction (HOI) are crucial for fields such as robotics, AR/VR, and human behavior understanding. However, current approaches model this task in an offline setting, where information at each time step can be drawn from the entire interaction sequence. In contrast, in real-world scenarios, the information available at each time step comes only from the current moment and historical data, i.e., an online setting. We find that offline methods perform poorly in an online context. Based on this observation, we propose two new tasks: Online HOI Generation and Perception. To address this task, we introduce the OnlineHOI framework, a network architecture based on the Mamba framework that employs a memory mechanism. By leveraging Mamba's powerful modeling capabilities for streaming data and the Memory mechanism's efficient integration of historical information, we achieve state-of-the-art results on the Core4D and OAKINK2 online generation tasks, as well as the online HOI4D perception task.