OmniQuery: Contextually Augmenting Captured Multimodal Memory to Enable Personal Question Answering
作者: Jiahao Nick Li, Zhuohao Jerry Zhang, Jiaju Ma
分类: cs.HC, cs.AI
发布日期: 2024-09-12 (更新: 2025-02-21)
备注: Paper accepted to the 2025 CHI Conference on Human Factors in Computing Systems (CHI 2025)
💡 一句话要点
OmniQuery:通过上下文增强多模态记忆,实现个性化问答
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 个人记忆 多模态数据 上下文增强 问答系统 大型语言模型
📋 核心要点
- 现有AI工具在个人记忆查询方面存在局限,无法处理需要关联多个记忆的复杂问题。
- OmniQuery通过整合分散的上下文信息来增强个人记忆,从而支持更复杂的查询。
- 实验结果表明,OmniQuery在回答复杂个人记忆问题时,显著优于传统RAG系统。
📝 摘要(中文)
人们经常通过照片、截图和视频来记录记忆。现有的基于AI的工具虽然能够使用自然语言查询这些数据,但仅支持检索单个信息片段,例如照片中的特定对象,难以回答涉及解释相互关联记忆的复杂查询,例如按时间顺序发生的事件。我们进行了一项为期一个月的日记研究,收集了真实的用户查询,并生成了必要的上下文信息分类,以便与捕获的记忆进行整合。然后,我们介绍了OmniQuery,这是一种新型系统,能够回答复杂的个人记忆相关问题,这些问题需要提取和推断上下文信息。OmniQuery通过整合来自多个相互关联记忆的零散上下文信息来增强单个捕获的记忆。给定一个问题,OmniQuery检索相关的增强记忆,并使用大型语言模型(LLM)生成带有引用的答案。在人工评估中,我们展示了OmniQuery的有效性,准确率达到71.5%,在74.5%的时间里优于或打平了传统的RAG系统。
🔬 方法详解
问题定义:现有基于AI的个人记忆查询系统主要关注检索单个信息片段,例如识别照片中的物体。它们难以处理需要整合多个记忆片段,并进行推理的复杂查询,例如“上周去公园之后做了什么?”。这种局限性源于缺乏对记忆之间上下文关系的理解和利用。
核心思路:OmniQuery的核心思路是通过上下文增强来丰富单个记忆片段。它将分散在不同记忆中的相关上下文信息提取出来,并整合到目标记忆中,从而为后续的查询提供更全面的信息。这种方法模拟了人类回忆过程,即通过关联不同事件来构建完整的记忆图景。
技术框架:OmniQuery系统主要包含以下几个模块:1) 记忆捕获模块:负责收集用户提供的多模态记忆数据,包括照片、截图、视频等。2) 上下文信息提取模块:从记忆数据中提取相关的上下文信息,例如时间、地点、人物、事件等。3) 记忆增强模块:将提取的上下文信息整合到相应的记忆片段中,形成增强的记忆表示。4) 查询检索模块:根据用户提出的问题,检索相关的增强记忆片段。5) 答案生成模块:利用大型语言模型(LLM)对检索到的记忆片段进行推理,生成最终答案,并提供引用来源。
关键创新:OmniQuery的关键创新在于其上下文增强机制。与传统的RAG系统不同,OmniQuery不是直接检索原始记忆片段,而是检索经过上下文增强的记忆片段。这种增强机制使得系统能够更好地理解用户问题的意图,并提供更准确、更全面的答案。此外,该系统还通过日记研究,系统性地分析了用户查询的需求,并构建了相应的上下文信息分类。
关键设计:OmniQuery在上下文信息提取方面,使用了多种技术,包括目标检测、命名实体识别、事件抽取等。在记忆增强方面,采用了基于图神经网络的方法,将记忆片段和上下文信息表示为图节点,并通过图卷积操作进行信息融合。在答案生成方面,使用了预训练的语言模型,并针对个人记忆查询任务进行了微调。具体的参数设置和网络结构细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
OmniQuery在人工评估中取得了显著的成果。实验结果表明,OmniQuery的准确率达到了71.5%,显著优于传统的RAG系统。在74.5%的时间里,OmniQuery的回答质量优于或至少与RAG系统持平。这些结果表明,OmniQuery的上下文增强机制能够有效地提高个人记忆查询的准确性和可靠性。
🎯 应用场景
OmniQuery具有广泛的应用前景,例如个人助理、智能客服、教育辅导等。它可以帮助用户更好地管理和利用个人记忆,提高工作效率和生活质量。例如,用户可以通过自然语言查询过去参加的会议内容、旅行经历、学习笔记等。未来,OmniQuery还可以与其他智能设备集成,例如智能眼镜、智能手表等,实现更便捷的记忆捕获和查询。
📄 摘要(原文)
People often capture memories through photos, screenshots, and videos. While existing AI-based tools enable querying this data using natural language, they only support retrieving individual pieces of information like certain objects in photos, and struggle with answering more complex queries that involve interpreting interconnected memories like sequential events. We conducted a one-month diary study to collect realistic user queries and generated a taxonomy of necessary contextual information for integrating with captured memories. We then introduce OmniQuery, a novel system that is able to answer complex personal memory-related questions that require extracting and inferring contextual information. OmniQuery augments individual captured memories through integrating scattered contextual information from multiple interconnected memories. Given a question, OmniQuery retrieves relevant augmented memories and uses a large language model (LLM) to generate answers with references. In human evaluations, we show the effectiveness of OmniQuery with an accuracy of 71.5%, outperforming a conventional RAG system by winning or tying for 74.5% of the time.