CarMem: Enhancing Long-Term Memory in LLM Voice Assistants through Category-Bounding
作者: Johannes Kirmayr, Lukas Stappen, Phillip Schneider, Florian Matthes, Elisabeth André
分类: cs.AI, cs.CL, cs.HC
发布日期: 2025-01-16
备注: Accepted for presentation at the International Conference on Computational Linguistics (COLING 2025)
💡 一句话要点
CarMem:通过类别限定增强LLM语音助手的长期记忆
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长期记忆 语音助手 大型语言模型 个性化 类别限定
📋 核心要点
- 现有语音助手难以长期记忆用户偏好,导致重复请求和用户体验下降,同时隐私问题日益突出。
- CarMem系统通过预定义类别构建长期记忆,利用LLM提取、存储和检索用户偏好,兼顾个性化与透明度。
- 在车载语音助手数据集CarMem上,系统在偏好提取、冗余消除和检索准确率方面均表现出色,验证了其工业应用潜力。
📝 摘要(中文)
在当今的助手领域,个性化能够增强交互、培养长期关系并加深用户参与度。然而,许多系统在保留用户偏好方面存在困难,导致重复的用户请求和用户参与度降低。此外,行业应用中对用户偏好进行不受监管和不透明的提取,引发了对隐私和信任的重大担忧,尤其是在像欧洲这样监管严格的地区。为了应对这些挑战,我们提出了一种面向语音助手的长期记忆系统,该系统围绕预定义的类别构建。该方法利用大型语言模型来高效地提取、存储和检索这些类别中的偏好,从而确保个性化和透明度。我们还引入了一个合成的多轮、多会话对话数据集(CarMem),该数据集基于真实的行业数据,专为车载语音助手环境定制。在数据集上进行基准测试,我们的系统在偏好提取方面实现了0.78到0.95的F1分数,具体取决于类别粒度。我们的维护策略将冗余偏好减少了95%,将矛盾偏好减少了92%,而最佳检索的准确率达到了0.87。总的来说,结果表明该系统适用于工业应用。
🔬 方法详解
问题定义:现有语音助手在长期记忆用户偏好方面存在不足,导致用户需要重复表达相同需求,影响用户体验。同时,工业界对用户偏好的提取方式不够透明,存在隐私泄露风险,尤其是在隐私法规严格的地区。
核心思路:CarMem的核心思路是构建一个基于预定义类别的长期记忆系统,利用LLM对用户偏好进行结构化存储和检索。通过类别限定,可以提高偏好提取的准确性和效率,同时增强系统的透明性和可控性。
技术框架:CarMem系统主要包含以下几个模块:1) 偏好提取模块:利用LLM从用户对话中提取偏好信息,并将其归类到预定义的类别中。2) 记忆存储模块:将提取的偏好信息存储到长期记忆中,并维护偏好之间的关系。3) 偏好检索模块:根据用户当前的需求,从长期记忆中检索相关的偏好信息。4) 记忆维护模块:定期清理长期记忆中的冗余和矛盾偏好,保持记忆的准确性和一致性。
关键创新:CarMem的关键创新在于其基于类别限定的长期记忆结构。与传统的无结构化记忆相比,CarMem能够更有效地组织和管理用户偏好,提高检索效率和准确性。此外,CarMem还引入了一种记忆维护策略,能够自动清理冗余和矛盾偏好,保持记忆的质量。
关键设计:CarMem使用预定义的类别来组织用户偏好,例如“音乐”、“导航”、“空调”等。LLM被用于提取用户对话中的偏好信息,并将其映射到相应的类别。记忆维护模块使用基于规则和LLM的方法来检测和清理冗余和矛盾偏好。CarMem还设计了一个新的合成数据集CarMem,用于评估长期记忆系统的性能。
🖼️ 关键图片
📊 实验亮点
CarMem系统在CarMem数据集上取得了显著的成果。在偏好提取方面,F1分数达到0.78到0.95,具体取决于类别粒度。记忆维护策略能够将冗余偏好减少95%,将矛盾偏好减少92%。最佳检索的准确率达到0.87。这些结果表明CarMem系统能够有效地提取、存储和检索用户偏好,并保持记忆的准确性和一致性。
🎯 应用场景
CarMem系统可应用于各种语音助手场景,例如车载语音助手、智能家居助手等。通过长期记忆用户偏好,可以提供更加个性化和智能化的服务,提升用户体验。同时,CarMem的透明性和可控性有助于保护用户隐私,增强用户信任。该研究为构建更智能、更人性化的语音助手提供了新的思路。
📄 摘要(原文)
In today's assistant landscape, personalisation enhances interactions, fosters long-term relationships, and deepens engagement. However, many systems struggle with retaining user preferences, leading to repetitive user requests and disengagement. Furthermore, the unregulated and opaque extraction of user preferences in industry applications raises significant concerns about privacy and trust, especially in regions with stringent regulations like Europe. In response to these challenges, we propose a long-term memory system for voice assistants, structured around predefined categories. This approach leverages Large Language Models to efficiently extract, store, and retrieve preferences within these categories, ensuring both personalisation and transparency. We also introduce a synthetic multi-turn, multi-session conversation dataset (CarMem), grounded in real industry data, tailored to an in-car voice assistant setting. Benchmarked on the dataset, our system achieves an F1-score of .78 to .95 in preference extraction, depending on category granularity. Our maintenance strategy reduces redundant preferences by 95% and contradictory ones by 92%, while the accuracy of optimal retrieval is at .87. Collectively, the results demonstrate the system's suitability for industrial applications.