Beyond Appearance: Transformer-based Person Identification from Conversational Dynamics

📄 arXiv: 2510.04753v1 📥 PDF

作者: Masoumeh Chapariniya, Teodora Vukovic, Sarah Ebling, Volker Dellwo

分类: cs.CV

发布日期: 2025-10-06


💡 一句话要点

提出基于Transformer的对话姿态识别框架,用于自然交互场景下的人物身份识别。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人物身份识别 Transformer 姿态估计 时空建模 双流网络 多尺度学习 会话分析

📋 核心要点

  1. 现有方法难以有效捕捉自然对话中复杂多变的姿态信息,导致人物身份识别准确率不高。
  2. 提出双流Transformer框架,分别建模空间姿态配置和时间运动模式,并采用多尺度时间Transformer进行分层运动建模。
  3. 实验表明,特定领域训练优于迁移学习,特征级融合可将准确率提升至98.03%,验证了姿态和动态信息的互补性。

📝 摘要(中文)

本文研究了基于Transformer架构的人物身份识别在自然、面对面会话场景中的性能。我们实现并评估了一个双流框架,该框架分别对从CANDOR会话语料库子集中提取的133个COCO WholeBody关键点的空间配置和时间运动模式进行建模。我们的实验比较了预训练和从头开始训练,研究了速度特征的使用,并引入了多尺度时间Transformer用于分层运动建模。结果表明,特定领域的训练明显优于迁移学习,并且空间配置比时间动态携带更多的判别信息。空间Transformer实现了95.74%的准确率,而多尺度时间Transformer实现了93.90%的准确率。特征级融合将性能提高到98.03%,证实了姿势和动态信息是互补的。这些发现突出了Transformer架构在自然交互中进行人物身份识别的潜力,并为未来的多模态和跨文化研究提供了见解。

🔬 方法详解

问题定义:论文旨在解决自然、面对面会话场景下的人物身份识别问题。现有方法难以有效捕捉对话中人物姿态的复杂时空动态信息,导致识别准确率受限。特别是,如何有效利用人体关键点的空间配置和时间运动模式,以实现更鲁棒和准确的人物身份识别,是一个关键挑战。

核心思路:论文的核心思路是利用Transformer架构强大的时空建模能力,分别对人体关键点的空间配置和时间运动模式进行建模。通过双流框架,分别提取和处理空间和时间特征,并最终进行特征融合,从而充分利用姿态和动态信息进行人物身份识别。这种设计旨在克服传统方法在处理复杂姿态变化和时间依赖性方面的局限性。

技术框架:整体框架包含两个主要分支:空间Transformer和时间Transformer。首先,从视频中提取COCO WholeBody关键点。然后,空间Transformer分支处理关键点的空间配置,时间Transformer分支处理关键点的时间运动模式(包括速度特征)。最后,将两个分支的特征进行融合,并使用分类器进行人物身份识别。多尺度时间Transformer通过不同时间尺度的建模,捕捉分层运动信息。

关键创新:论文的关键创新在于:1) 提出了一种双流Transformer框架,分别建模空间和时间信息,充分利用了姿态和动态信息的互补性。2) 引入了多尺度时间Transformer,用于分层运动建模,能够捕捉不同时间尺度的运动模式。3) 通过实验证明了特定领域训练优于迁移学习,强调了领域自适应的重要性。

关键设计:空间Transformer和时间Transformer均采用标准的Transformer编码器结构。时间Transformer中,速度特征通过计算相邻帧关键点位置的差异得到。多尺度时间Transformer包含多个时间尺度分支,每个分支处理不同长度的时间窗口。损失函数采用交叉熵损失函数。实验中,对Transformer的层数、头数等超参数进行了调整,以获得最佳性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,空间Transformer的准确率达到95.74%,多尺度时间Transformer的准确率达到93.90%。通过特征级融合,整体准确率提升至98.03%,相较于单独使用空间或时间信息,性能显著提升。此外,实验还证明了特定领域训练明显优于迁移学习,表明在会话场景下进行人物身份识别需要针对性地进行模型训练。

🎯 应用场景

该研究成果可应用于智能监控、人机交互、视频会议等领域。例如,在智能监控中,可以利用该技术进行人员身份验证和跟踪;在人机交互中,可以根据用户的姿态和动作进行个性化服务;在视频会议中,可以自动识别发言人身份。此外,该技术还可以扩展到跨文化研究,分析不同文化背景下人们的交流方式。

📄 摘要(原文)

This paper investigates the performance of transformer-based architectures for person identification in natural, face-to-face conversation scenario. We implement and evaluate a two-stream framework that separately models spatial configurations and temporal motion patterns of 133 COCO WholeBody keypoints, extracted from a subset of the CANDOR conversational corpus. Our experiments compare pre-trained and from-scratch training, investigate the use of velocity features, and introduce a multi-scale temporal transformer for hierarchical motion modeling. Results demonstrate that domain-specific training significantly outperforms transfer learning, and that spatial configurations carry more discriminative information than temporal dynamics. The spatial transformer achieves 95.74% accuracy, while the multi-scale temporal transformer achieves 93.90%. Feature-level fusion pushes performance to 98.03%, confirming that postural and dynamic information are complementary. These findings highlight the potential of transformer architectures for person identification in natural interactions and provide insights for future multimodal and cross-cultural studies.