Part-Aware Bottom-Up Group Reasoning for Fine-Grained Social Interaction Detection

📄 arXiv: 2511.03666v1 📥 PDF

作者: Dongkeun Kim, Minsu Cho, Suha Kwak

分类: cs.CV

发布日期: 2025-11-05

备注: Accepted to NeurIPS 2025


💡 一句话要点

提出Part-Aware自底向上群体推理框架,用于细粒度社交互动检测

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 社交互动检测 群体推理 Part-Aware特征 自底向上 细粒度分析 人际关系建模 计算机视觉

📋 核心要点

  1. 现有社交互动检测方法忽略了细粒度线索,依赖个体整体表示,且缺乏个体间互动建模。
  2. 提出part-aware自底向上群体推理框架,利用身体部位特征和人际关系推断社交群体。
  3. 实验结果表明,该方法在NVI数据集上优于现有方法,达到了新的state-of-the-art。

📝 摘要(中文)

社交互动通常源于面部表情、视线和手势等细微的线索。然而,现有的社交互动检测方法忽略了这些细微的线索,主要依赖于个体的整体表示。此外,它们直接检测社交群体,而没有明确地建模个体之间的潜在互动。这些缺点限制了它们捕捉局部社交信号的能力,并在应该从基于细微线索的社交互动中推断群体配置时引入歧义。本文提出了一种用于细粒度社交互动检测的part-aware自底向上群体推理框架。该方法利用身体部位特征及其人际关系来推断社交群体及其互动。我们的模型首先检测个体,并使用part-aware线索增强他们的特征,然后通过基于相似性的推理将个体关联起来,从而推断群体配置,这不仅考虑了空间关系,还考虑了指示互动的细微社交线索,从而实现更准确的群体推断。在NVI数据集上的实验表明,我们的方法优于现有方法,达到了新的state-of-the-art。

🔬 方法详解

问题定义:现有社交互动检测方法主要依赖于个体的整体表征,忽略了面部表情、视线、手势等细粒度线索,导致无法准确捕捉局部社交信号。此外,现有方法直接检测社交群体,缺乏对个体间互动关系的建模,使得群体配置的推断存在歧义。因此,如何有效利用细粒度线索,并建模个体间的互动关系,是社交互动检测的关键挑战。

核心思路:论文的核心思路是采用自底向上的方式,首先检测个体,然后利用个体身体部位的特征以及个体之间的关系进行推理,从而推断出社交群体及其互动。通过引入part-aware特征,模型能够关注到更细微的社交线索,例如面部表情和手势。通过建模个体间的相似性关系,模型能够更好地理解个体之间的互动模式,从而更准确地推断群体配置。

技术框架:该方法主要包含以下几个阶段:1) 个体检测:使用现有的目标检测器检测图像中的个体。2) Part-aware特征提取:提取每个个体的身体部位特征,例如头部、手部等。这些特征用于增强个体的整体表示,使其包含更丰富的细粒度信息。3) 基于相似性的群体推理:基于个体之间的特征相似性,推断个体之间的关系,例如是否属于同一个社交群体。相似性度量不仅考虑空间关系,还考虑细微的社交线索。4) 群体配置推断:基于个体之间的关系,推断出最终的社交群体配置。

关键创新:该论文的关键创新在于:1) 引入了part-aware特征,使得模型能够关注到更细微的社交线索。2) 采用自底向上的方式,通过建模个体之间的关系来推断社交群体,避免了直接预测群体带来的歧义。3) 提出了基于相似性的群体推理方法,该方法不仅考虑空间关系,还考虑细微的社交线索,从而更准确地推断群体配置。

关键设计:在part-aware特征提取阶段,可以使用预训练的姿态估计模型来检测身体部位,然后提取这些部位的特征。在基于相似性的群体推理阶段,可以使用余弦相似度或高斯核函数来度量个体之间的特征相似性。损失函数可以包括个体检测损失、part-aware特征学习损失和群体推理损失。具体的网络结构可以采用ResNet或Transformer等常用的backbone网络。

📊 实验亮点

该方法在NVI数据集上取得了state-of-the-art的结果,显著优于现有的社交互动检测方法。具体而言,该方法在群体检测的精度和召回率上均有明显提升,表明该方法能够更准确地检测社交群体。实验结果还表明,引入part-aware特征和基于相似性的群体推理方法能够有效提升社交互动检测的性能。

🎯 应用场景

该研究成果可应用于视频监控、社交行为分析、人机交互等领域。例如,在视频监控中,可以利用该方法自动检测人群中的异常行为,如打架斗殴等。在社交行为分析中,可以利用该方法分析人群的社交互动模式,例如群体构成、互动频率等。在人机交互中,可以利用该方法理解人类的社交意图,从而实现更自然的人机交互。

📄 摘要(原文)

Social interactions often emerge from subtle, fine-grained cues such as facial expressions, gaze, and gestures. However, existing methods for social interaction detection overlook such nuanced cues and primarily rely on holistic representations of individuals. Moreover, they directly detect social groups without explicitly modeling the underlying interactions between individuals. These drawbacks limit their ability to capture localized social signals and introduce ambiguity when group configurations should be inferred from social interactions grounded in nuanced cues. In this work, we propose a part-aware bottom-up group reasoning framework for fine-grained social interaction detection. The proposed method infers social groups and their interactions using body part features and their interpersonal relations. Our model first detects individuals and enhances their features using part-aware cues, and then infers group configuration by associating individuals via similarity-based reasoning, which considers not only spatial relations but also subtle social cues that signal interactions, leading to more accurate group inference. Experiments on the NVI dataset demonstrate that our method outperforms prior methods, achieving the new state of the art.