Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling
作者: Tiantian Feng, Anfeng Xu, Xuan Shi, Somer Bishop, Shrikanth Narayanan
分类: cs.SD, cs.AI, eess.AS
发布日期: 2024-09-14 (更新: 2025-06-02)
备注: Accepted to INTERSPEECH 2025
💡 一句话要点
提出基于穿戴式传感器和Ego4D预训练的儿童自闭症患者人际互动中说话人分类方法
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 自闭症谱系障碍 说话人分类 以自我为中心语音 穿戴式传感器 Ego4D 预训练 儿童-成人互动
📋 核心要点
- 传统说话人分类方法依赖旁观者视角语音,缺乏对儿童自闭症患者人际互动中以自我为中心视角的语音建模研究。
- 该研究提出利用穿戴式传感器采集儿童在BOSCC访谈中的以自我为中心语音数据,并使用Ego4D语音数据进行预训练。
- 实验结果表明,以自我为中心的语音采集和预训练能够有效提升儿童-成人说话人分类的准确性。
📝 摘要(中文)
自闭症谱系障碍(ASD)是一种神经发育疾病,其特征是社交沟通、重复行为和感觉处理方面的挑战。评估儿童在治疗过程中行为变化的一个重要研究领域是使用BOSCC协议,该协议涉及儿童和临床医生之间进行的一系列预定义活动的互动。理解儿童在这些互动中的行为的一个基本方面是自动语音理解,特别是识别谁在何时说话。传统方法严重依赖于从旁观者角度记录的语音样本,而关于以自我为中心的语音建模的研究有限。本研究设计了一个实验,使用穿戴式传感器从以自我为中心的角度在BOSCC访谈中进行语音采样,并探索预训练Ego4D语音样本以增强二元互动中儿童-成人说话人分类的效果。研究结果突出了以自我为中心的语音采集和预训练在提高说话人分类准确性方面的潜力。
🔬 方法详解
问题定义:论文旨在解决儿童-成人二元互动场景下,特别是自闭症儿童的BOSCC访谈中,说话人的自动分类问题。现有方法主要依赖于旁观者视角的语音数据,忽略了以儿童为中心的视角,导致模型在实际应用中可能表现不佳。此外,缺乏针对此类场景的特定数据集和模型。
核心思路:论文的核心思路是从儿童的视角出发,利用穿戴式传感器采集语音数据,构建以自我为中心的语音数据集。同时,利用大规模的Ego4D数据集进行预训练,以提升模型在目标场景下的泛化能力。通过结合以自我为中心的语音数据和预训练技术,提高说话人分类的准确性。
技术框架:整体框架包括数据采集、数据预处理、模型训练和评估四个主要阶段。首先,使用穿戴式传感器在BOSCC访谈中采集儿童和成人的语音数据。然后,对采集到的数据进行预处理,包括降噪、语音活动检测等。接着,使用预训练的语音模型(例如,基于Transformer的模型)在目标数据集上进行微调。最后,使用标准的评估指标(例如,准确率)评估模型的性能。
关键创新:论文的关键创新在于:1) 提出了以自我为中心的语音采集方法,更贴近儿童的实际体验;2) 利用大规模的Ego4D数据集进行预训练,有效提升了模型在小样本场景下的性能;3) 将上述方法应用于儿童自闭症患者的人际互动分析,具有重要的临床意义。与现有方法相比,该方法更注重儿童的视角,并且能够更好地利用现有的数据资源。
关键设计:论文中关于关键设计的细节尚未明确给出。但是,可以推测可能涉及以下方面:1) 穿戴式传感器的选择和放置位置,以保证语音数据的质量;2) 预训练模型的选择和微调策略,以充分利用Ego4D数据集的信息;3) 损失函数的选择,例如,交叉熵损失函数,以优化说话人分类的性能;4) 数据增强方法,以增加训练数据的多样性。
🖼️ 关键图片
📊 实验亮点
该研究的主要亮点在于探索了以自我为中心的语音采集方法在儿童-成人说话人分类中的应用。通过预训练Ego4D语音样本,能够提升说话人分类的准确性。虽然论文摘要中没有给出具体的性能数据,但强调了以自我为中心的语音采集和预训练的潜力,预示着该方法在实际应用中具有显著的优势。
🎯 应用场景
该研究成果可应用于儿童自闭症的早期诊断和干预评估。通过自动分析儿童在人际互动中的语音行为,可以为临床医生提供客观、定量的评估指标,辅助诊断和治疗方案的制定。此外,该技术还可以推广到其他需要分析儿童语音行为的场景,例如,语言发展迟缓的儿童的评估。
📄 摘要(原文)
Autism spectrum disorder (ASD) is a neurodevelopmental condition characterized by challenges in social communication, repetitive behavior, and sensory processing. One important research area in ASD is evaluating children's behavioral changes over time during treatment. The standard protocol with this objective is BOSCC, which involves dyadic interactions between a child and clinicians performing a pre-defined set of activities. A fundamental aspect of understanding children's behavior in these interactions is automatic speech understanding, particularly identifying who speaks and when. Conventional approaches in this area heavily rely on speech samples recorded from a spectator perspective, and there is limited research on egocentric speech modeling. In this study, we design an experiment to perform speech sampling in BOSCC interviews from an egocentric perspective using wearable sensors and explore pre-training Ego4D speech samples to enhance child-adult speaker classification in dyadic interactions. Our findings highlight the potential of egocentric speech collection and pre-training to improve speaker classification accuracy.