MIRIX: Multi-Agent Memory System for LLM-Based Agents
作者: Yu Wang, Xi Chen
分类: cs.CL, cs.AI
发布日期: 2025-07-10
💡 一句话要点
MIRIX:面向LLM Agent的多Agent记忆系统,解决长期记忆和多模态理解难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多Agent系统 记忆增强 LLM Agent 多模态学习 长期记忆 知识库 情景记忆
📋 核心要点
- 现有AI Agent的记忆能力不足,主要体现在扁平结构和窄范围上,难以实现长期、个性化的信息回忆。
- MIRIX通过模块化多Agent架构,结合六种不同类型的记忆,实现对文本、视觉等多模态信息的有效存储和检索。
- 在ScreenshotVQA和LOCOMO测试中,MIRIX分别实现了35%的准确率提升和SOTA性能,证明了其优越性。
📝 摘要(中文)
本文提出了MIRIX,一个模块化的多Agent记忆系统,旨在解决现有AI Agent在记忆能力上的局限性。现有方法通常依赖于扁平、范围狭窄的记忆组件,限制了Agent个性化、抽象和可靠地回忆用户特定信息的能力。MIRIX通过拥抱丰富的视觉和多模态体验超越了文本限制,使记忆在实际场景中真正有用。MIRIX由六种不同的、精心构建的记忆类型组成:核心记忆、情景记忆、语义记忆、程序记忆、资源记忆和知识库,并结合了一个多Agent框架,该框架动态地控制和协调更新和检索。实验表明,在ScreenshotVQA和LOCOMO两个基准测试中,MIRIX均取得了显著的性能提升,验证了其有效性。同时,作者提供了一个基于MIRIX的应用程序,用于实时屏幕监控和个性化记忆构建。
🔬 方法详解
问题定义:现有AI Agent的记忆系统存在局限性,主要体现在以下几个方面:一是记忆结构扁平,缺乏层次化组织;二是记忆范围狭窄,难以处理长期和多模态信息;三是缺乏有效的更新和检索机制,导致信息遗忘或检索不准确。这些问题限制了Agent在复杂场景中的应用,例如需要长期记忆和多模态理解的任务。
核心思路:MIRIX的核心思路是构建一个模块化的多Agent记忆系统,通过将记忆划分为不同的类型(核心记忆、情景记忆、语义记忆等),并采用多Agent框架进行动态控制和协调,从而实现对长期和多模态信息的有效存储和检索。这种设计借鉴了人类记忆系统的特点,旨在提高Agent的记忆能力和推理能力。
技术框架:MIRIX的整体架构包括六种记忆类型(核心记忆、情景记忆、语义记忆、程序记忆、资源记忆和知识库)和一个多Agent框架。每种记忆类型负责存储不同类型的信息,例如核心记忆存储用户的基本信息,情景记忆存储用户的经历,语义记忆存储用户的知识。多Agent框架负责控制和协调不同记忆类型的更新和检索,例如当Agent需要回忆某个事件时,多Agent框架会根据事件的类型和上下文信息,选择合适的记忆类型进行检索。
关键创新:MIRIX最重要的技术创新点在于其模块化的多Agent记忆系统。与传统的扁平化记忆系统相比,MIRIX能够更好地组织和管理记忆信息,提高记忆的效率和准确性。此外,MIRIX还支持多模态信息的存储和检索,使其能够应用于更广泛的场景。
关键设计:MIRIX的关键设计包括以下几个方面:一是六种记忆类型的划分,每种记忆类型都有其特定的存储格式和检索方式;二是多Agent框架的设计,该框架能够动态地控制和协调不同记忆类型的更新和检索;三是记忆更新和检索的算法,这些算法需要考虑信息的时效性、相关性和重要性。
🖼️ 关键图片
📊 实验亮点
MIRIX在ScreenshotVQA和LOCOMO两个基准测试中取得了显著的性能提升。在ScreenshotVQA上,MIRIX的准确率比RAG基线高35%,同时存储需求降低了99.9%。在LOCOMO上,MIRIX达到了85.4%的SOTA性能,远超现有基线。这些结果表明MIRIX在记忆增强的LLM Agent方面具有显著优势。
🎯 应用场景
MIRIX具有广泛的应用前景,例如可以应用于智能助手、游戏AI、教育机器人等领域。通过构建个性化的记忆库,MIRIX可以使Agent更好地理解用户的需求和偏好,从而提供更智能、更个性化的服务。此外,MIRIX还可以应用于需要长期记忆和多模态理解的复杂任务,例如医疗诊断、金融分析等。
📄 摘要(原文)
Although memory capabilities of AI agents are gaining increasing attention, existing solutions remain fundamentally limited. Most rely on flat, narrowly scoped memory components, constraining their ability to personalize, abstract, and reliably recall user-specific information over time. To this end, we introduce MIRIX, a modular, multi-agent memory system that redefines the future of AI memory by solving the field's most critical challenge: enabling language models to truly remember. Unlike prior approaches, MIRIX transcends text to embrace rich visual and multimodal experiences, making memory genuinely useful in real-world scenarios. MIRIX consists of six distinct, carefully structured memory types: Core, Episodic, Semantic, Procedural, Resource Memory, and Knowledge Vault, coupled with a multi-agent framework that dynamically controls and coordinates updates and retrieval. This design enables agents to persist, reason over, and accurately retrieve diverse, long-term user data at scale. We validate MIRIX in two demanding settings. First, on ScreenshotVQA, a challenging multimodal benchmark comprising nearly 20,000 high-resolution computer screenshots per sequence, requiring deep contextual understanding and where no existing memory systems can be applied, MIRIX achieves 35% higher accuracy than the RAG baseline while reducing storage requirements by 99.9%. Second, on LOCOMO, a long-form conversation benchmark with single-modal textual input, MIRIX attains state-of-the-art performance of 85.4%, far surpassing existing baselines. These results show that MIRIX sets a new performance standard for memory-augmented LLM agents. To allow users to experience our memory system, we provide a packaged application powered by MIRIX. It monitors the screen in real time, builds a personalized memory base, and offers intuitive visualization and secure local storage to ensure privacy.