FileGram: Grounding Agent Personalization in File-System Behavioral Traces
作者: Shuai Liu, Shulin Tian, Kairui Hu, Yuhao Dong, Zhe Yang, Bo Li, Jingkang Yang, Chen Change Loy, Ziwei Liu
分类: cs.CV, cs.AI
发布日期: 2026-04-07
💡 一句话要点
FileGram:提出基于文件系统行为轨迹的Agent个性化框架,解决数据约束下的Agent定制难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agent个性化 文件系统行为轨迹 多模态数据 记忆系统 人机交互
📋 核心要点
- 现有协同AI Agent个性化方法受限于数据约束,难以收集多模态真实世界轨迹,忽略了文件系统操作中的密集行为轨迹。
- FileGram框架通过FileGramEngine模拟真实工作流生成多模态动作序列,FileGramBench评估记忆系统性能,FileGramOS构建用户profile并编码轨迹。
- 实验表明FileGramBench对现有记忆系统具有挑战性,FileGramEngine和FileGramOS有效,该框架已开源以支持未来研究。
📝 摘要(中文)
本文提出FileGram,一个综合框架,旨在基于文件系统行为轨迹实现Agent的记忆和个性化。由于严格的隐私壁垒和联合收集多模态真实世界轨迹的难度,协同AI Agent的有效个性化受到严重的数据约束。FileGram包含三个核心组件:(1) FileGramEngine,一个可扩展的、角色驱动的数据引擎,用于模拟真实的工作流程并大规模生成细粒度的多模态动作序列;(2) FileGramBench,一个基于文件系统行为轨迹的诊断基准,用于评估记忆系统在profile重建、轨迹解耦、角色漂移检测和多模态基础上的性能;(3) FileGramOS,一个自底向上的记忆架构,直接从原子动作和内容增量构建用户profile,而不是对话摘要,并将这些轨迹编码到程序性、语义性和情景性通道中,并在查询时进行抽象。大量实验表明,FileGramBench对于最先进的记忆系统仍然具有挑战性,并且FileGramEngine和FileGramOS是有效的。通过开源该框架,我们希望支持未来对个性化、以记忆为中心的文件系统Agent的研究。
🔬 方法详解
问题定义:现有协同AI Agent的个性化方法面临严重的数据约束问题。由于隐私限制和收集多模态真实世界轨迹的困难,难以进行大规模训练和评估。此外,现有方法侧重于交互本身,忽略了文件系统操作中蕴含的丰富行为轨迹,导致个性化效果不佳。
核心思路:FileGram的核心思路是将Agent的记忆和个性化建立在文件系统行为轨迹的基础上。通过模拟真实的工作流程,生成细粒度的多模态动作序列,并利用这些序列构建用户profile。这种方法能够有效利用文件系统操作中蕴含的丰富信息,从而提升Agent的个性化能力。
技术框架:FileGram框架包含三个主要组件:FileGramEngine、FileGramBench和FileGramOS。FileGramEngine是一个可扩展的数据引擎,用于模拟真实的工作流程并生成多模态动作序列。FileGramBench是一个诊断基准,用于评估记忆系统在profile重建、轨迹解耦、角色漂移检测和多模态基础上的性能。FileGramOS是一个自底向上的记忆架构,直接从原子动作和内容增量构建用户profile,并将这些轨迹编码到程序性、语义性和情景性通道中。
关键创新:FileGram的关键创新在于其将Agent的个性化与文件系统行为轨迹紧密结合。与现有方法不同,FileGram不依赖于对话摘要,而是直接从原子动作和内容增量构建用户profile。此外,FileGram还提出了一个全面的评估基准FileGramBench,用于诊断记忆系统在各种个性化任务上的性能。
关键设计:FileGramOS采用了一种分层记忆架构,将文件系统行为轨迹编码到程序性、语义性和情景性通道中。程序性通道存储Agent的操作序列,语义性通道存储Agent操作的含义,情景性通道存储Agent操作的上下文信息。在查询时,FileGramOS能够根据查询内容,从不同的通道中提取相关信息,从而实现高效的个性化服务。具体的参数设置、损失函数和网络结构等技术细节在论文中进行了详细描述,此处不再赘述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FileGramBench对于最先进的记忆系统仍然具有挑战性,这说明现有方法在处理文件系统行为轨迹方面仍有不足。同时,实验也证明了FileGramEngine和FileGramOS的有效性,表明该框架能够有效地利用文件系统行为轨迹进行Agent个性化。具体的性能数据和提升幅度在论文中进行了详细展示。
🎯 应用场景
FileGram框架可应用于各种协同AI Agent,例如智能助手、自动化办公系统等。通过利用文件系统行为轨迹,这些Agent能够更好地理解用户的意图和偏好,从而提供更加个性化的服务。该研究有望推动人机交互领域的发展,提升用户的工作效率和体验。
📄 摘要(原文)
Coworking AI agents operating within local file systems are rapidly emerging as a paradigm in human-AI interaction; however, effective personalization remains limited by severe data constraints, as strict privacy barriers and the difficulty of jointly collecting multimodal real-world traces prevent scalable training and evaluation, and existing methods remain interaction-centric while overlooking dense behavioral traces in file-system operations; to address this gap, we propose FileGram, a comprehensive framework that grounds agent memory and personalization in file-system behavioral traces, comprising three core components: (1) FileGramEngine, a scalable persona-driven data engine that simulates realistic workflows and generates fine-grained multimodal action sequences at scale; (2) FileGramBench, a diagnostic benchmark grounded in file-system behavioral traces for evaluating memory systems on profile reconstruction, trace disentanglement, persona drift detection, and multimodal grounding; and (3) FileGramOS, a bottom-up memory architecture that builds user profiles directly from atomic actions and content deltas rather than dialogue summaries, encoding these traces into procedural, semantic, and episodic channels with query-time abstraction; extensive experiments show that FileGramBench remains challenging for state-of-the-art memory systems and that FileGramEngine and FileGramOS are effective, and by open-sourcing the framework, we hope to support future research on personalized memory-centric file-system agents.