Interact with me: Joint Egocentric Forecasting of Intent to Interact, Attitude and Social Actions

📄 arXiv: 2412.16698v3 📥 PDF

作者: Tongfei Bian, Yiming Ma, Mathieu Chollet, Victor Sanchez, Tanaya Guha

分类: cs.CV, cs.HC

发布日期: 2024-12-21 (更新: 2025-05-08)

备注: Accepted to ICME, 2025. Camera-ready Version


💡 一句话要点

提出SocialEgoNet,用于从第一视角联合预测交互意图、态度和社会行为

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱八:物理动画 (Physics-based Animation)

关键词: 人机交互 意图预测 态度识别 社会行为预测 图神经网络 多任务学习

📋 核心要点

  1. 现有方法难以有效预测人机交互中人的意图、态度和行为,阻碍了智能体的主动性和交互效率。
  2. SocialEgoNet利用图神经网络对时空人体骨骼数据建模,并通过分层多任务学习显式地利用任务间的依赖关系。
  3. 在JPL-Social数据集上的实验表明,SocialEgoNet实现了实时推理,并在交互意图、态度和社会行为预测方面优于现有方法。

📝 摘要(中文)

为了实现高效的人机交互,智能体应主动识别目标用户并为即将到来的交互做好准备。本文将这一挑战性问题定义为一项新任务,即从智能体的第一视角联合预测一个人的交互意图、对智能体的态度以及他们将要执行的动作。为此,我们提出了SocialEgoNet,这是一个基于图的时空框架,它通过分层多任务学习方法来利用任务依赖性。SocialEgoNet仅使用1秒的视频输入中提取的全身骨骼(来自面部、手部和身体的关键点)来实现高推理速度。为了评估,我们使用新的类别标签和边界框注释来扩充现有的第一视角人机交互数据集。在名为JPL-Social的增强数据集上进行的大量实验表明,我们的模型具有实时推理和卓越的性能(所有任务的平均准确率为83.15%),优于几个有竞争力的基线。额外的注释和代码将在接受后提供。

🔬 方法详解

问题定义:论文旨在解决人机交互中,智能体如何提前预测交互对象(人)的交互意图、对智能体的态度以及将要执行的动作的问题。现有方法通常独立地预测这些因素,忽略了它们之间的内在联系,并且计算效率可能较低,难以满足实时交互的需求。

核心思路:论文的核心思路是利用图神经网络对人体骨骼的时空信息进行建模,并采用分层多任务学习框架,显式地利用交互意图、态度和社会行为之间的依赖关系。通过联合预测这些因素,模型可以更准确地理解人的行为,并提高预测的效率。

技术框架:SocialEgoNet的整体架构包含以下几个主要模块:1) 骨骼关键点提取:从第一视角视频中提取人体骨骼关键点(面部、手部、身体);2) 图神经网络建模:利用图神经网络对骨骼关键点的时空关系进行建模,提取特征;3) 分层多任务学习:设计分层多任务学习框架,联合预测交互意图、态度和社会行为。该框架包含共享层和特定任务层,共享层用于提取通用特征,特定任务层用于预测特定任务。

关键创新:论文的关键创新在于:1) 提出了联合预测交互意图、态度和社会行为的新任务;2) 设计了基于图神经网络和分层多任务学习的SocialEgoNet模型,有效地利用了任务间的依赖关系;3) 构建了JPL-Social数据集,为该任务的研究提供了benchmark。

关键设计:SocialEgoNet使用1秒的视频输入,以保证实时性。图神经网络的具体结构未知,但推测使用了时空图卷积网络(ST-GCN)或类似的网络结构。分层多任务学习框架的具体设计未知,但推测使用了共享编码器和多个解码器的结构,每个解码器负责预测一个任务。损失函数未知,但推测使用了加权交叉熵损失或类似的损失函数,以平衡不同任务的贡献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SocialEgoNet在JPL-Social数据集上取得了显著的性能提升,平均准确率达到83.15%,优于多个竞争基线。该模型能够在实时条件下进行推理,仅需1秒的视频输入即可完成预测。这些结果表明,SocialEgoNet在人机交互意图预测方面具有很强的实用价值。

🎯 应用场景

该研究成果可应用于各种人机交互场景,例如:机器人助手、智能家居、自动驾驶等。通过预测用户的交互意图和态度,智能体可以更主动地提供服务,提高交互效率和用户体验。例如,机器人可以提前准备好用户需要的物品,或者根据用户的情绪调整交互方式。

📄 摘要(原文)

For efficient human-agent interaction, an agent should proactively recognize their target user and prepare for upcoming interactions. We formulate this challenging problem as the novel task of jointly forecasting a person's intent to interact with the agent, their attitude towards the agent and the action they will perform, from the agent's (egocentric) perspective. So we propose \emph{SocialEgoNet} - a graph-based spatiotemporal framework that exploits task dependencies through a hierarchical multitask learning approach. SocialEgoNet uses whole-body skeletons (keypoints from face, hands and body) extracted from only 1 second of video input for high inference speed. For evaluation, we augment an existing egocentric human-agent interaction dataset with new class labels and bounding box annotations. Extensive experiments on this augmented dataset, named JPL-Social, demonstrate \emph{real-time} inference and superior performance (average accuracy across all tasks: 83.15\%) of our model outperforming several competitive baselines. The additional annotations and code will be available upon acceptance.