Beyond Appearance: Transformer-based Person Identification from Conversational Dynamics

📄 arXiv: 2510.04753v1 📥 PDF

作者: Masoumeh Chapariniya, Teodora Vukovic, Sarah Ebling, Volker Dellwo

分类: cs.CV

发布日期: 2025-10-06


💡 一句话要点

提出基于Transformer的对话动态人体识别方法,提升自然交互场景下身份识别精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人体识别 Transformer 双流网络 时间建模 空间建模 多尺度分析 自然交互

📋 核心要点

  1. 现有方法在自然对话场景下的人体识别精度不足,难以有效捕捉复杂的人体姿态和动态信息。
  2. 提出双流Transformer框架,分别建模人体关键点的空间配置和时间运动模式,并采用多尺度时间Transformer进行分层运动建模。
  3. 实验表明,领域特定训练优于迁移学习,空间信息更具判别性,特征融合后准确率达到98.03%。

📝 摘要(中文)

本文研究了基于Transformer架构的人体识别在自然、面对面会话场景中的性能。我们实现并评估了一个双流框架,该框架分别建模从CANDOR会话语料库子集中提取的133个COCO WholeBody关键点的空间配置和时间运动模式。我们的实验比较了预训练和从头开始的训练,研究了速度特征的使用,并引入了用于分层运动建模的多尺度时间Transformer。结果表明,特定领域的训练明显优于迁移学习,并且空间配置比时间动态携带更多的判别信息。空间Transformer实现了95.74%的准确率,而多尺度时间Transformer实现了93.90%的准确率。特征级融合将性能提升至98.03%,证实了姿势和动态信息的互补性。这些发现突出了Transformer架构在自然交互中进行人体识别的潜力,并为未来的多模态和跨文化研究提供了见解。

🔬 方法详解

问题定义:论文旨在解决自然、面对面会话场景下的人体身份识别问题。现有方法难以有效捕捉人体在自然交互中的复杂姿态变化和动态信息,导致识别精度不高。特别是在遮挡、光照变化等复杂环境下,传统方法的鲁棒性较差。

核心思路:论文的核心思路是利用Transformer架构强大的建模能力,分别对人体关键点的空间配置和时间运动模式进行建模。通过双流结构,分别提取静态姿态特征和动态运动特征,并进行融合,从而更全面地捕捉人体身份信息。同时,采用多尺度时间Transformer,对不同时间尺度的运动信息进行分层建模,提升对复杂运动模式的识别能力。

技术框架:整体框架包含以下几个主要模块:1) 人体关键点提取:使用COCO WholeBody模型提取133个人体关键点。2) 双流Transformer建模:分别使用空间Transformer和时间Transformer对空间配置和时间运动模式进行建模。3) 多尺度时间Transformer:对时间运动模式进行分层建模,捕捉不同时间尺度的运动信息。4) 特征融合:将空间和时间Transformer提取的特征进行融合。5) 分类器:使用分类器进行人体身份识别。

关键创新:论文的关键创新点在于:1) 提出了一种双流Transformer框架,分别建模人体关键点的空间配置和时间运动模式。2) 引入了多尺度时间Transformer,用于分层建模时间运动模式,提升对复杂运动模式的识别能力。3) 实验结果表明,领域特定训练优于迁移学习,这为后续研究提供了重要的指导。

关键设计:在空间Transformer中,使用标准Transformer编码器对空间关键点进行建模。在时间Transformer中,使用多尺度结构,分别对不同时间窗口内的运动信息进行建模。速度特征通过计算相邻帧关键点坐标的差值得到。损失函数采用交叉熵损失函数。网络结构参数(如Transformer层数、隐藏层维度等)通过实验进行调整。

📊 实验亮点

实验结果表明,基于空间Transformer的模型达到了95.74%的准确率,基于多尺度时间Transformer的模型达到了93.90%的准确率。通过特征级融合,整体准确率提升至98.03%,显著优于传统方法。此外,实验还发现,领域特定训练明显优于迁移学习,这为后续研究提供了重要的指导。

🎯 应用场景

该研究成果可应用于智能监控、人机交互、虚拟现实、社交机器人等领域。例如,在智能监控中,可以利用该方法进行人群身份识别和行为分析;在人机交互中,可以实现更自然、更智能的人机对话;在虚拟现实中,可以提升虚拟角色的真实感和交互性。未来,该方法还可以扩展到跨文化研究,分析不同文化背景下的人体姿态和运动模式的差异。

📄 摘要(原文)

This paper investigates the performance of transformer-based architectures for person identification in natural, face-to-face conversation scenario. We implement and evaluate a two-stream framework that separately models spatial configurations and temporal motion patterns of 133 COCO WholeBody keypoints, extracted from a subset of the CANDOR conversational corpus. Our experiments compare pre-trained and from-scratch training, investigate the use of velocity features, and introduce a multi-scale temporal transformer for hierarchical motion modeling. Results demonstrate that domain-specific training significantly outperforms transfer learning, and that spatial configurations carry more discriminative information than temporal dynamics. The spatial transformer achieves 95.74% accuracy, while the multi-scale temporal transformer achieves 93.90%. Feature-level fusion pushes performance to 98.03%, confirming that postural and dynamic information are complementary. These findings highlight the potential of transformer architectures for person identification in natural interactions and provide insights for future multimodal and cross-cultural studies.