Introducing MeMo: A Multimodal Dataset for Memory Modelling in Multiparty Conversations

作者: Maria Tsfasman, Bernd Dudzik, Kristian Fenech, Andras Lorincz, Catholijn M. Jonker, Catharine Oertel

分类: cs.CL, cs.AI, cs.HC, cs.LG

发布日期: 2024-09-07 (更新: 2024-10-15)

💡 一句话要点

提出MeMo：一个用于多人对话中记忆建模的多模态数据集。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 会话记忆 多模态数据集 群体互动 记忆建模 自然语言处理

📋 核心要点

现有会话系统忽略了参与者互动后的记忆保留，阻碍了对群体社交关系长期发展的理解。
MeMo语料库通过收集参与者的记忆报告，并结合多模态数据，旨在促进会话记忆的计算建模。
MeMo语料库包含关于Covid-19的小组讨论，并进行了行为、感知测量和多模态注释，为相关研究提供资源。

📝 摘要（中文）

会话记忆是指人类从对话中编码、保留和检索言语、非言语和上下文信息的过程。由于人类记忆具有选择性，对同一事件的不同回忆可能导致群体内的误解和不一致。然而，旨在提高群体互动质量的会话辅助系统通常侧重于跟踪用户在单个会话中的状态，忽略了每次互动后参与者记忆中保留的内容。理解会话记忆可以作为群体内社交关系长期发展的信息来源。本文介绍了MeMo语料库，这是第一个用参与者的记忆保留报告注释的会话数据集，旨在促进人类会话记忆的计算建模。MeMo语料库包括关于Covid-19的小组讨论，时长31小时，在2周内重复3次。它集成了经过验证的行为和感知测量、音频、视频和多模态注释，为研究和建模会话记忆和群体动态提供了宝贵的资源。通过介绍MeMo语料库，分析其有效性，并展示其对未来研究的有用性，本文旨在为智能系统开发的会话记忆建模的未来研究铺平道路。

🔬 方法详解

问题定义：现有会话系统主要关注会话期间的用户状态跟踪，而忽略了会话后参与者的记忆保留情况。这种忽略导致无法理解会话记忆对群体社交关系长期发展的影响。因此，需要一个能够捕捉和建模会话记忆的数据集，以促进相关研究。

核心思路：MeMo语料库的核心思路是通过收集参与者在多次小组讨论后的记忆报告，并将其与多模态数据（音频、视频、行为和感知测量）相结合，构建一个全面的会话记忆数据集。这种设计允许研究人员探索会话内容、个体特征和记忆保留之间的关系。

技术框架：MeMo语料库的构建流程主要包括以下几个阶段：1）招募参与者并进行分组；2）组织关于Covid-19的小组讨论，并在2周内重复3次；3）在每次讨论后，收集参与者的记忆报告；4）收集音频、视频数据，并进行行为和感知测量；5）对数据进行多模态注释，包括言语、非言语和上下文信息。

关键创新：MeMo语料库的关键创新在于它是第一个专门为会话记忆建模而设计的，并包含参与者记忆保留报告的会话数据集。此外，它还集成了多种模态的数据，为研究会话记忆提供了更丰富的视角。

关键设计：MeMo语料库的关键设计包括：1）选择Covid-19作为讨论主题，以确保参与者对内容具有一定的熟悉度；2）在2周内重复3次讨论，以研究记忆随时间的衰减情况；3）采用标准化的记忆报告收集方法，以确保数据的可靠性和可比性；4）进行多模态注释，以捕捉会话的各个方面。

🖼️ 关键图片

📊 实验亮点

MeMo语料库包含31小时的小组讨论，在2周内重复3次，并集成了行为、感知测量、音频、视频和多模态注释。该数据集的有效性分析表明，参与者的记忆报告与实际会话内容之间存在显著相关性，验证了该数据集在会话记忆建模方面的潜力。具体性能数据和对比基线未知。

🎯 应用场景

MeMo语料库可用于开发更智能的会话辅助系统，这些系统能够理解和利用参与者的记忆，从而改善群体互动质量，促进更好的沟通和协作。此外，该数据集还可以应用于社交关系分析、心理学研究和人机交互等领域，帮助我们更深入地了解人类的记忆机制和社交行为。

📄 摘要（原文）

Conversational memory is the process by which humans encode, retain and retrieve verbal, non-verbal and contextual information from a conversation. Since human memory is selective, differing recollections of the same events can lead to misunderstandings and misalignments within a group. Yet, conversational facilitation systems, aimed at advancing the quality of group interactions, usually focus on tracking users' states within an individual session, ignoring what remains in each participant's memory after the interaction. Understanding conversational memory can be used as a source of information on the long-term development of social connections within a group. This paper introduces the MeMo corpus, the first conversational dataset annotated with participants' memory retention reports, aimed at facilitating computational modelling of human conversational memory. The MeMo corpus includes 31 hours of small-group discussions on Covid-19, repeated 3 times over the term of 2 weeks. It integrates validated behavioural and perceptual measures, audio, video, and multimodal annotations, offering a valuable resource for studying and modelling conversational memory and group dynamics. By introducing the MeMo corpus, analysing its validity, and demonstrating its usefulness for future research, this paper aims to pave the way for future research in conversational memory modelling for intelligent system development.

Introducing MeMo: A Multimodal Dataset for Memory Modelling in Multiparty Conversations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理