A Multimodal Neural Network for Recognizing Subjective Self-Disclosure Towards Social Robots

📄 arXiv: 2508.10828v1 📥 PDF

作者: Henry Powell, Guy Laban, Emily S. Cross

分类: cs.RO, cs.AI

发布日期: 2025-08-14

备注: Accepted at 2025 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)


💡 一句话要点

提出一种多模态神经网络,用于识别社交机器人交互中的主观自我暴露。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 社交机器人 自我暴露识别 注意力机制 交叉熵损失

📋 核心要点

  1. 现有计算系统难以准确建模人类与机器人交互中的主观自我暴露,阻碍了社交机器人的发展。
  2. 论文提出一种定制的多模态注意力网络,并设计了尺度保持交叉熵损失函数,以提升模型性能。
  3. 实验结果表明,该模型在自我暴露识别任务上取得了显著提升,F1分数达到0.83,优于基线模型。

📝 摘要(中文)

主观自我暴露是人类社交互动的重要特征。尽管社会和行为学文献对主观自我暴露的特征和后果进行了大量研究,但迄今为止,在开发能够准确建模它的计算系统方面的工作却很少。更少的工作试图专门建模人类交互者如何与机器人伙伴进行自我暴露。随着我们要求社交机器人在各种社交环境中与人类协作并建立关系,这一点变得越来越紧迫。在本文中,我们的目标是开发一种基于情感识别文献模型的定制多模态注意力网络,在一个大型自收集的自我暴露视频语料库上训练该模型,并构建一个新的损失函数,即尺度保持交叉熵损失,以改进该问题的分类和回归版本。我们的结果表明,使用我们新颖的损失函数训练的最佳模型实现了0.83的F1分数,比最佳基线模型提高了0.48。这一结果在允许社交机器人识别交互伙伴的自我暴露这一目标上取得了重大进展,这种能力对于具有社交认知的社交机器人至关重要。

🔬 方法详解

问题定义:论文旨在解决社交机器人理解人类主观自我暴露的问题。现有方法在建模人类与机器人交互的细微差别方面存在不足,导致识别准确率较低,难以满足社交机器人的实际应用需求。

核心思路:论文的核心思路是利用多模态信息(例如,视频、音频和文本)来更全面地捕捉人类自我暴露的特征。通过构建一个多模态神经网络,模型可以学习不同模态之间的关联,从而更准确地识别自我暴露行为。此外,论文还设计了一种新的损失函数,以优化模型的训练过程。

技术框架:该模型采用多模态注意力网络架构。首先,从视频、音频和文本数据中提取特征。然后,使用注意力机制来学习不同模态特征之间的权重。最后,将加权后的特征输入到分类器中,以预测自我暴露的程度。整体流程包括数据预处理、特征提取、多模态融合和分类预测等阶段。

关键创新:论文的关键创新在于以下两点:一是提出了一个定制的多模态注意力网络,该网络能够有效地融合不同模态的信息;二是设计了一种新的损失函数,即尺度保持交叉熵损失,该损失函数能够更好地处理自我暴露程度的尺度问题,从而提高模型的分类和回归性能。

关键设计:在网络结构方面,论文采用了多层感知机(MLP)和循环神经网络(RNN)等模块来提取不同模态的特征。在损失函数方面,尺度保持交叉熵损失函数的设计考虑了自我暴露程度的尺度不变性,通过引入尺度因子来平衡不同尺度的损失。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该模型在自收集的自我暴露视频语料库上取得了显著的性能提升。使用尺度保持交叉熵损失函数训练的模型,其F1分数达到了0.83,相比于最佳基线模型提升了0.48。这一结果表明,该模型能够有效地识别人类的自我暴露行为,为社交机器人的发展奠定了基础。

🎯 应用场景

该研究成果可应用于多种社交机器人应用场景,例如情感陪伴机器人、心理咨询机器人和教育机器人。通过准确识别用户的自我暴露行为,机器人可以更好地理解用户的情感状态,从而提供更个性化和有效的服务。该研究有助于提升人机交互的自然性和流畅性,促进社交机器人在现实生活中的广泛应用。

📄 摘要(原文)

Subjective self-disclosure is an important feature of human social interaction. While much has been done in the social and behavioural literature to characterise the features and consequences of subjective self-disclosure, little work has been done thus far to develop computational systems that are able to accurately model it. Even less work has been done that attempts to model specifically how human interactants self-disclose with robotic partners. It is becoming more pressing as we require social robots to work in conjunction with and establish relationships with humans in various social settings. In this paper, our aim is to develop a custom multimodal attention network based on models from the emotion recognition literature, training this model on a large self-collected self-disclosure video corpus, and constructing a new loss function, the scale preserving cross entropy loss, that improves upon both classification and regression versions of this problem. Our results show that the best performing model, trained with our novel loss function, achieves an F1 score of 0.83, an improvement of 0.48 from the best baseline model. This result makes significant headway in the aim of allowing social robots to pick up on an interaction partner's self-disclosures, an ability that will be essential in social robots with social cognition.