User Experience Estimation in Human-Robot Interaction Via Multi-Instance Learning of Multimodal Social Signals

📄 arXiv: 2507.23544v1 📥 PDF

作者: Ryo Miyoshi, Yuki Okafuji, Takuya Iwamoto, Junya Nakanishi, Jun Baba

分类: cs.RO, cs.CV, cs.HC

发布日期: 2025-07-31

备注: This paper has been accepted for presentation at IEEE/RSJ International Conference on Intelligent Robots and Systems 2025 (IROS 2025)


💡 一句话要点

提出一种基于多示例学习的多模态社交信号用户体验估计方法,用于人机交互。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机交互 用户体验估计 多模态融合 多示例学习 社交信号

📋 核心要点

  1. 现有的人机交互用户体验评估方法通常只关注情感或参与度等单一维度,缺乏对用户体验的整体性评估。
  2. 该论文提出了一种基于多示例学习框架的多模态用户体验估计方法,利用面部表情和声音等社交信号,捕捉用户体验的时间动态。
  3. 实验结果表明,该方法在用户体验估计方面优于人工评估员,验证了该方法在人机交互用户体验评估中的有效性。

📝 摘要(中文)

近年来,对社交机器人的需求不断增长,这要求它们能够根据用户的状态调整自身行为。准确评估人机交互(HRI)中的用户体验(UX)对于实现这种适应性至关重要。用户体验是一个多方面的衡量标准,涵盖情感和参与度等方面,但现有方法通常侧重于单独评估这些方面。本研究提出了一种通过利用多模态社交信号来估计人机交互中用户体验的方法。我们构建了一个用户体验数据集,并开发了一个基于Transformer的模型,该模型利用面部表情和声音进行估计。与依赖瞬时观察的传统模型不同,我们的方法使用多示例学习框架来捕获短期和长期交互模式。这使得模型能够捕获用户体验中的时间动态,从而提供更全面的表示。实验结果表明,我们的方法在用户体验估计方面优于第三方人工评估员。

🔬 方法详解

问题定义:论文旨在解决人机交互中用户体验(UX)的准确评估问题。现有方法的痛点在于,它们通常只关注用户体验的单一维度(如情感或参与度),而忽略了用户体验是一个随时间变化的复杂过程,缺乏对用户体验时间动态的建模。

核心思路:论文的核心思路是利用多模态社交信号(面部表情和声音)以及多示例学习(MIL)框架来捕捉用户体验的时间动态。通过将一段时间内的交互数据视为一个“包”(bag),每个时刻的数据视为一个“示例”(instance),MIL能够学习到哪些时刻的交互对整体用户体验影响更大。

技术框架:整体框架包含数据收集、特征提取和用户体验估计三个主要阶段。首先,收集人机交互过程中的面部表情和声音数据。然后,使用预训练模型(如用于面部表情识别的模型和用于语音特征提取的模型)提取特征。最后,将提取的特征输入到基于Transformer的多示例学习模型中进行用户体验估计。

关键创新:该论文的关键创新在于将多示例学习框架引入到人机交互用户体验估计中。与传统的基于单帧或短时窗口的方法不同,该方法能够捕捉用户体验的时间动态,从而提供更准确的评估。此外,该方法融合了面部表情和声音等多模态信息,进一步提升了用户体验估计的准确性。

关键设计:该模型使用Transformer作为特征编码器,用于提取每个示例(时刻)的特征表示。然后,使用注意力机制来学习每个示例对整体用户体验的贡献权重。损失函数采用标准的MIL损失函数,旨在最大化正包(积极用户体验)的得分,同时最小化负包(消极用户体验)的得分。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在用户体验估计方面优于第三方人工评估员。具体性能数据未知,但该结果表明该方法能够更准确地捕捉用户体验的时间动态,并提供更客观的评估结果。与传统方法相比,该方法能够显著提升用户体验估计的准确性。

🎯 应用场景

该研究成果可应用于各种人机交互场景,例如社交机器人、虚拟助手、智能客服等。通过准确评估用户体验,机器人可以自适应地调整其行为,从而提升用户满意度和交互效率。此外,该方法还可以用于评估不同机器人设计方案的用户体验,为机器人设计提供指导。

📄 摘要(原文)

In recent years, the demand for social robots has grown, requiring them to adapt their behaviors based on users' states. Accurately assessing user experience (UX) in human-robot interaction (HRI) is crucial for achieving this adaptability. UX is a multi-faceted measure encompassing aspects such as sentiment and engagement, yet existing methods often focus on these individually. This study proposes a UX estimation method for HRI by leveraging multimodal social signals. We construct a UX dataset and develop a Transformer-based model that utilizes facial expressions and voice for estimation. Unlike conventional models that rely on momentary observations, our approach captures both short- and long-term interaction patterns using a multi-instance learning framework. This enables the model to capture temporal dynamics in UX, providing a more holistic representation. Experimental results demonstrate that our method outperforms third-party human evaluators in UX estimation.