Inter-Stance: A Dyadic Multimodal Corpus for Conversational Stance Analysis
作者: Xiang Zhang, Xiaotian Li, Taoyue Wang, Nan Bi, Xin Zhou, Cody Zhou, Zoie Wang, Andrew Yang, Yuming Su, Jeff Cohn, Qiang Ji, Lijun Yin
分类: cs.CV
发布日期: 2026-04-24
💡 一句话要点
构建用于会话姿态分析的多模态双人互动数据集Inter-Stance
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态数据 双人互动 社交信号 情感分析 姿态分析
📋 核心要点
- 现有社交互动数据集缺乏多模态记录和多人自我报告测量,限制了对人际行为的深入研究。
- 论文构建了包含多种模态数据的双人互动数据集,并标注了社交信号、姿态等信息,为相关研究提供了基础。
- 实验验证了该数据集在多模态双人交流分析中的有效性,为未来社交互动建模提供了新的可能性。
📝 摘要(中文)
本文介绍了一个新的多模态双人互动数据集(Inter-Stance),包含45个双人组(90人)的同步多模态行为记录,包括2D面部视频、3D面部几何、热谱动态、语音和言语行为、生理信号(PPG、EDA、心率、血压和呼吸)以及所有参与者在交流互动场景中的自我报告情感。数据集包含两种类型的双人组:有共同历史的人和陌生人。标注包括社交信号、同意、不同意和中立姿态。通过有效的情感诱导,这些多模态数据将能够对多模态人际行为进行新的建模。本文进行了广泛的实验,以评估有和没有历史的双人组的多模态双人交流及其情感。这个新的数据库将使以前不可能实现的多模态社交互动建模成为可能。该数据集包含20TB的多模态数据,可与研究社区共享。
🔬 方法详解
问题定义:现有社交互动分析研究缺乏高质量的多模态双人互动数据集,难以捕捉细微的人际行为和情感变化。已有的数据集通常模态单一,或者缺乏对参与者主观感受的记录,限制了对社交互动过程的全面理解。
核心思路:论文的核心思路是通过构建一个包含多种模态数据(包括面部视频、3D几何、热谱、语音、生理信号和自我报告情感)的双人互动数据集,为研究者提供一个更全面、更细致的社交互动分析平台。通过对不同类型的双人组(有共同历史和陌生人)进行记录,并标注社交信号和姿态,可以更好地理解人际互动中的复杂动态。
技术框架:该数据集的构建流程主要包括以下几个阶段:1) 招募参与者,并将其分为有共同历史和陌生人两种类型的双人组;2) 设计情感诱导实验,使参与者在互动过程中产生不同的情感状态;3) 使用同步的多模态传感器记录参与者的行为数据,包括面部视频、3D几何、热谱、语音和生理信号;4) 收集参与者的自我报告情感数据;5) 对收集到的数据进行标注,包括社交信号、同意、不同意和中立姿态。
关键创新:该数据集的关键创新在于其多模态性和双人互动性。与现有的社交互动数据集相比,该数据集包含了更丰富的模态信息,可以更全面地捕捉人际行为的各个方面。同时,该数据集关注的是双人互动,可以更好地研究人际互动中的动态过程。此外,该数据集还包含了参与者的自我报告情感数据,可以更好地理解情感在社交互动中的作用。
关键设计:在数据采集方面,论文采用了同步的多模态传感器,保证了不同模态数据之间的时间对齐。在情感诱导方面,论文设计了有效的情感诱导实验,使参与者在互动过程中产生不同的情感状态。在数据标注方面,论文采用了专业的标注人员,保证了标注的准确性和一致性。
🖼️ 关键图片
📊 实验亮点
论文构建了一个包含20TB多模态数据的双人互动数据集,包括面部视频、3D几何、热谱、语音、生理信号和自我报告情感等多种模态。实验结果表明,该数据集能够有效区分不同类型的双人组(有共同历史和陌生人)在社交互动中的行为差异,并为多模态社交互动建模提供了新的可能性。
🎯 应用场景
该研究成果可应用于社交机器人、虚拟助手、心理健康评估、人际关系分析等领域。通过分析多模态双人互动数据,可以提升社交机器人的共情能力和互动效果,帮助虚拟助手更好地理解用户的情感需求,为心理健康评估提供客观指标,并深入理解人际关系的动态变化,从而改善人际沟通和协作。
📄 摘要(原文)
Social interactions dominate our perceptions of the world and shape our daily behavior by attaching social meaning to acts as simple and spontaneous as gestures, facial expressions, voice, and speech. People mimic and otherwise respond to each other's postures, facial expressions, mannerisms, and other verbal and nonverbal behavior, and form appraisals or evaluations in the process. Yet, no publicly-available dataset includes multimodal recordings and self-report measures of multiple persons in social interaction. Dyadic recordings and annotation are lacking. We present a new data corpus of multimodal dyadic interaction (45 dyads, 90 persons) that includes synchronized multi-modality behavior (2D face video, 3D face geometry, thermal spectrum dynamics, voice and speech behavior, physiology (PPG, EDA, heart-rate, blood pressure, and respiration), and self-reported affect of all participants in a communicative interaction scenario. Two types of dyads are included: persons with shared past history and strangers. Annotations include social signals, agreement, disagreement, and neutral stance. With a potent emotion induction, these multimodal data will enable novel modeling of multimodal interpersonal behavior. We present extensive experiments to evaluate multimodal dyadic communication of dyads with and without interpersonal history, and their affect. This new database will make multimodal modeling of social interaction never possible before. The dataset includes 20TB of multimodal data to share with the research community.