GEMS: Agent-Native Multimodal Generation with Memory and Skills
作者: Zefeng He, Siyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Yu Cheng, Yang Yang
分类: cs.CV
发布日期: 2026-03-30
备注: Project Page: https://gems-gen.github.io
💡 一句话要点
GEMS:利用记忆和技能的Agent原生多模态生成框架,提升复杂指令和下游任务性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态生成 Agent框架 记忆增强 技能学习 迭代优化
📋 核心要点
- 现有通用多模态生成模型在处理复杂指令和特定下游任务时表现不足。
- GEMS框架通过Agent Loop、Agent Memory和Agent Skill三个核心组件,迭代优化生成质量,并利用记忆和技能提升性能。
- 实验表明,GEMS在多个任务和生成后端上均取得显著性能提升,甚至使小模型超越了大型SOTA模型。
📝 摘要(中文)
本文提出GEMS(Agent-Native Multimodal GEneration with Memory and Skills),一个旨在突破基础模型在通用和下游任务中固有局限性的框架。GEMS基于三个核心组件构建:Agent Loop引入了一个结构化的多Agent框架,通过闭环优化迭代地提高生成质量;Agent Memory提供了一个持久的、轨迹级别的记忆,分层存储事实状态和压缩的经验总结,从而实现对优化过程的全局视图并减少冗余;Agent Skill提供了一个可扩展的、具有按需加载的领域特定专业知识集合,使系统能够有效地处理各种下游应用。在五个主流任务和四个下游任务中,GEMS在多个生成后端上始终如一地实现了显著的性能提升。最值得注意的是,它使轻量级的6B模型Z-Image-Turbo在GenEval2上超越了最先进的Nano Banana 2,证明了Agent框架在将模型能力扩展到其原始限制之外的有效性。
🔬 方法详解
问题定义:现有的大型多模态生成模型在面对复杂指令和专业下游任务时,泛化能力不足,难以达到令人满意的效果。它们通常缺乏有效的机制来迭代改进生成结果,并且难以利用领域知识。
核心思路:GEMS的核心思路是将多模态生成任务转化为一个Agent交互过程,通过Agent Loop进行迭代优化,Agent Memory存储历史信息,Agent Skill提供领域知识,从而提升生成质量和泛化能力。这种设计借鉴了Agent框架在代码生成等领域的成功经验。
技术框架:GEMS框架包含三个主要组件: 1. Agent Loop:一个结构化的多Agent框架,通过闭环优化迭代地提高生成质量。Agent之间进行交互,不断改进生成结果。 2. Agent Memory:一个持久的、轨迹级别的记忆模块,分层存储事实状态和压缩的经验总结,从而实现对优化过程的全局视图并减少冗余。 3. Agent Skill:一个可扩展的、具有按需加载的领域特定专业知识集合,使系统能够有效地处理各种下游应用。
关键创新:GEMS的关键创新在于将Agent框架引入到多模态生成领域,并设计了Agent Memory和Agent Skill模块,从而实现了迭代优化、记忆增强和知识融合。这使得模型能够更好地理解复杂指令,并生成高质量的多模态内容。
关键设计:Agent Memory采用分层结构,包括事实状态和经验总结,以减少冗余并提高效率。Agent Skill采用按需加载机制,可以根据任务需求动态加载不同的领域知识。具体的参数设置、损失函数和网络结构等细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
GEMS在五个主流任务和四个下游任务中,在多个生成后端上始终如一地实现了显著的性能提升。最值得注意的是,它使轻量级的6B模型Z-Image-Turbo在GenEval2上超越了最先进的Nano Banana 2,证明了Agent框架在扩展模型能力方面的有效性。这表明GEMS能够有效提升小模型的性能,使其达到甚至超过大型SOTA模型的水平。
🎯 应用场景
GEMS框架具有广泛的应用前景,可用于图像生成、视频生成、文本生成等多个领域。它可以应用于智能客服、内容创作、教育娱乐等多个行业,例如,可以用于生成高质量的营销文案、创作个性化的故事、生成逼真的虚拟人物等。GEMS的Agent框架设计也为其他多模态任务提供了新的思路。
📄 摘要(原文)
Recent multimodal generation models have achieved remarkable progress on general-purpose generation tasks, yet continue to struggle with complex instructions and specialized downstream tasks. Inspired by the success of advanced agent frameworks such as Claude Code, we propose \textbf{GEMS} (Agent-Native Multimodal \textbf{GE}neration with \textbf{M}emory and \textbf{S}kills), a framework that pushes beyond the inherent limitations of foundational models on both general and downstream tasks. GEMS is built upon three core components. Agent Loop introduces a structured multi-agent framework that iteratively improves generation quality through closed-loop optimization. Agent Memory provides a persistent, trajectory-level memory that hierarchically stores both factual states and compressed experiential summaries, enabling a global view of the optimization process while reducing redundancy. Agent Skill offers an extensible collection of domain-specific expertise with on-demand loading, allowing the system to effectively handle diverse downstream applications. Across five mainstream tasks and four downstream tasks, evaluated on multiple generative backends, GEMS consistently achieves significant performance gains. Most notably, it enables the lightweight 6B model Z-Image-Turbo to surpass the state-of-the-art Nano Banana 2 on GenEval2, demonstrating the effectiveness of agent harness in extending model capabilities beyond their original limits.