MERCI: Multimodal Emotional and peRsonal Conversational Interactions Dataset

作者: Mohammed Althubyani, Zhijin Meng, Shengyuan Xie, Cha Seung, Imran Razzak, Eduardo B. Sandoval, Baki Kocaballi, Francisco Cruz

分类: cs.HC, cs.ET, cs.RO

发布日期: 2024-12-06 (更新: 2025-03-18)

备注: 9 pages, 5 Figures, Rejected from International Conference of Human Robot Interaction 2025, Melbourne, Australia

💡 一句话要点

MERCI：一个用于多模态情感和个性化对话交互的新数据集

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态对话 人机交互 情感计算 个性化对话 数据集 GPT-4 面部表情识别

📋 核心要点

现有会话代理难以进行深入人机交互，缺乏包含多模态信息的交互数据集是主要瓶颈。
MERCI数据集通过记录人与机器人基于个性化信息和情感状态的真实对话，旨在填补这一空白。
实验结果表明，MERCI数据集具有高度的自然性、参与性、流畅性、一致性和相关性，能够有效支持共情对话研究。

📝 摘要（中文）

会话代理在日常生活中越来越普及，但许多代理无法与人类进行深入互动。目前，缺乏能够捕捉人机交互对话中多模态信息的有效数据集。为了解决这个问题，我们记录了一个新的多模态数据集（MERCI），它包含丰富的具身交互数据。该过程包括要求参与者完成一份问卷，并收集他们在十个主题（如爱好和喜欢的音乐）上的个人资料。随后，我们启动了机器人和参与者之间的对话，利用GPT-4根据参与者的个人资料和情感状态（由面部表情识别和情感分析确定）生成上下文相关的响应。我们进行了自动评估和用户评估，以评估收集数据的整体质量。评估结果表明，对话具有高度的自然性、参与性、流畅性、一致性和相关性，并且机器人能够提供共情反应。值得注意的是，该数据集来源于与机器人的真实互动，参与者提供了个人信息并表达了真实的情感。

🔬 方法详解

问题定义：现有的人机对话数据集往往缺乏对用户情感和个性化信息的充分建模，导致对话代理难以进行深入和共情的交互。现有的方法难以捕捉真实的人机交互场景，限制了对话代理在情感理解和个性化响应方面的能力。

核心思路：MERCI数据集的核心思路是通过收集真实的人机对话数据，并结合用户的个性化信息和情感状态，来构建一个更丰富和更具代表性的多模态对话数据集。利用GPT-4生成上下文相关的回复，并结合面部表情识别和情感分析来理解用户的情感状态，从而实现更自然和更具共情能力的对话。

技术框架：MERCI数据集的构建流程主要包括以下几个阶段：1) 参与者填写包含个人信息和兴趣爱好的问卷；2) 机器人与参与者进行对话，GPT-4根据参与者的个人资料和情感状态生成回复；3) 通过面部表情识别和情感分析来确定参与者的情感状态；4) 进行自动评估和用户评估，以评估数据的质量。整个流程旨在模拟真实的人机交互场景，并捕捉用户的个性化信息和情感状态。

关键创新：MERCI数据集的关键创新在于其真实性和多模态性。该数据集来源于与机器人的真实互动，参与者提供了个人信息并表达了真实的情感。同时，该数据集包含了丰富的多模态信息，包括文本、语音、面部表情等，从而可以更全面地理解用户的意图和情感。

关键设计：在数据收集过程中，研究人员使用了GPT-4来生成上下文相关的回复，并结合面部表情识别和情感分析来理解用户的情感状态。具体的技术细节包括：GPT-4的prompt设计，面部表情识别算法的选择，情感分析模型的训练等。此外，研究人员还设计了自动评估和用户评估指标，以评估数据的质量，包括自然性、参与性、流畅性、一致性和相关性。

🖼️ 关键图片

📊 实验亮点

MERCI数据集的自动评估和用户评估结果表明，该数据集具有高度的自然性、参与性、流畅性、一致性和相关性。用户评估结果显示，机器人能够提供共情反应，表明该数据集能够有效支持共情对话研究。这些结果验证了MERCI数据集的质量和价值，为相关领域的研究提供了有力的支持。

🎯 应用场景

MERCI数据集可广泛应用于情感计算、人机交互、对话系统等领域。该数据集能够促进更自然、更具共情能力的对话代理的开发，例如，在智能客服、虚拟助手、情感支持机器人等场景中，提升用户体验和交互效果。未来，该数据集可以扩展到更多领域，例如教育、医疗等，为个性化服务提供更强大的数据支持。

📄 摘要（原文）

The integration of conversational agents into our daily lives has become increasingly common, yet many of these agents cannot engage in deep interactions with humans. Despite this, there is a noticeable shortage of datasets that capture multimodal information from human-robot interaction dialogues. To address this gap, we have recorded a novel multimodal dataset (MERCI) that encompasses rich embodied interaction data. The process involved asking participants to complete a questionnaire and gathering their profiles on ten topics, such as hobbies and favorite music. Subsequently, we initiated conversations between the robot and the participants, leveraging GPT-4 to generate contextually appropriate responses based on the participant's profile and emotional state, as determined by facial expression recognition and sentiment analysis. Automatic and user evaluations were conducted to assess the overall quality of the collected data. The results of both evaluations indicated a high level of naturalness, engagement, fluency, consistency, and relevance in the conversation, as well as the robot's ability to provide empathetic responses. It is worth noting that the dataset is derived from genuine interactions with the robot, involving participants who provided personal information and conveyed actual emotions.

MERCI: Multimodal Emotional and peRsonal Conversational Interactions Dataset

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理