Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis
作者: Shuang Chen, Quanxin Shou, Hangting Chen, Yucheng Zhou, Kaituo Feng, Wenbo Hu, Yi-Fan Zhang, Yunlong Lin, Wenxuan Huang, Mingyang Song, Dasen Dai, Bolin Jiang, Manyuan Zhang, Shi-Xue Zhang, Zhengkai Jiang, Lucas Wang, Zhao Zhong, Yu Cheng, Nanyun Peng
分类: cs.CV, cs.MM
发布日期: 2026-03-31
备注: Project Page: https://github.com/shawn0728/Unify-Agent
💡 一句话要点
提出Unify-Agent,用于解决世界知识驱动图像合成中长尾概念生成难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像合成 多模态智能体 知识驱动 长尾概念 智能体建模
📋 核心要点
- 现有统一多模态模型在处理长尾和知识密集型概念的真实世界图像生成时存在困难,主要依赖于冻结的参数化知识。
- Unify-Agent将图像生成重构为智能体流程,包含提示理解、多模态证据搜索、知识驱动的重新描述和最终合成,引入智能体建模。
- 通过构建多模态数据流程和策划高质量智能体轨迹,Unify-Agent在多个基准测试和真实世界生成任务中均优于基线模型。
📝 摘要(中文)
统一多模态模型为理解多样且复杂的现实世界知识并生成高质量图像提供了一种自然且有前景的架构。然而,它们仍然主要依赖于冻结的参数化知识,这使得它们难以处理涉及长尾和知识密集型概念的真实世界图像生成。受到智能体在现实世界任务中广泛成功的启发,我们探索了智能体建模来解决这一局限性。具体来说,我们提出了Unify-Agent,一种用于世界知识驱动图像合成的统一多模态智能体,它将图像生成重构为一个智能体流程,包括提示理解、多模态证据搜索、基于知识的重新描述和最终合成。为了训练我们的模型,我们构建了一个定制的多模态数据流程,并为世界知识驱动的图像合成策划了143K高质量的智能体轨迹,从而能够对整个智能体生成过程进行有效的监督。我们进一步引入了FactIP,一个涵盖12个类别具有文化意义和长尾事实概念的基准,它明确地需要外部知识基础。大量的实验表明,我们提出的Unify-Agent在各种基准和真实世界生成任务中,相对于其基础统一模型有了显著的改进,同时接近了最强大的闭源模型的世界知识能力。作为对基于智能体的世界知识驱动图像合成建模的早期探索,我们的工作强调了紧密耦合推理、搜索和生成对于可靠的开放世界智能体图像合成的价值。
🔬 方法详解
问题定义:论文旨在解决世界知识驱动的图像合成任务中,现有统一多模态模型难以处理长尾和知识密集型概念的问题。现有方法主要依赖于模型自身存储的参数化知识,缺乏从外部获取和利用知识的能力,导致在生成包含罕见或特定领域知识的图像时表现不佳。
核心思路:论文的核心思路是将图像生成过程建模为一个智能体(Agent)的决策过程。智能体通过与外部环境交互,搜索相关知识,并利用这些知识指导图像的生成。这种方法借鉴了智能体在现实世界任务中的成功经验,旨在提高模型在开放世界场景下的图像生成能力。
技术框架:Unify-Agent的整体框架包含四个主要阶段:1) 提示理解:理解用户输入的文本提示,提取关键信息。2) 多模态证据搜索:根据提示,从外部知识库(如搜索引擎、知识图谱)中搜索相关的多模态证据(文本、图像等)。3) 基于知识的重新描述:利用搜索到的证据,对原始提示进行补充和完善,生成更详细、更准确的描述。4) 最终合成:根据重新描述的提示,生成最终的图像。
关键创新:Unify-Agent的关键创新在于将图像生成任务转化为一个智能体决策过程,并引入了多模态证据搜索机制。这使得模型能够从外部获取知识,从而更好地处理长尾和知识密集型概念。此外,论文还构建了一个高质量的智能体轨迹数据集,用于训练和监督智能体的生成过程。
关键设计:为了训练Unify-Agent,论文构建了一个包含143K高质量智能体轨迹的数据集。该数据集涵盖了各种场景和概念,并提供了详细的智能体行为记录。此外,论文还引入了一个名为FactIP的基准测试,用于评估模型在处理文化意义和长尾事实概念方面的能力。具体的网络结构和损失函数等技术细节在论文中进行了详细描述,但此处不便展开。
📊 实验亮点
Unify-Agent在多个基准测试中均取得了显著的性能提升。特别是在FactIP基准测试中,Unify-Agent能够更好地处理长尾和知识密集型概念,接近了最强大的闭源模型的世界知识能力。实验结果表明,Unify-Agent能够有效地利用外部知识,提高图像生成的质量和准确性。具体的性能数据和提升幅度在论文中进行了详细的展示。
🎯 应用场景
Unify-Agent在图像生成、内容创作、教育、文化遗产保护等领域具有广泛的应用前景。它可以用于生成包含特定知识或文化背景的图像,帮助用户更好地理解和学习相关知识。此外,该技术还可以应用于虚拟现实、游戏开发等领域,提升用户体验。未来,Unify-Agent有望成为一个强大的图像生成工具,为各行各业带来创新和价值。
📄 摘要(原文)
Unified multimodal models provide a natural and promising architecture for understanding diverse and complex real-world knowledge while generating high-quality images. However, they still rely primarily on frozen parametric knowledge, which makes them struggle with real-world image generation involving long-tail and knowledge-intensive concepts. Inspired by the broad success of agents on real-world tasks, we explore agentic modeling to address this limitation. Specifically, we present Unify-Agent, a unified multimodal agent for world-grounded image synthesis, which reframes image generation as an agentic pipeline consisting of prompt understanding, multimodal evidence searching, grounded recaptioning, and final synthesis. To train our model, we construct a tailored multimodal data pipeline and curate 143K high-quality agent trajectories for world-grounded image synthesis, enabling effective supervision over the full agentic generation process. We further introduce FactIP, a benchmark covering 12 categories of culturally significant and long-tail factual concepts that explicitly requires external knowledge grounding. Extensive experiments show that our proposed Unify-Agent substantially improves over its base unified model across diverse benchmarks and real world generation tasks, while approaching the world knowledge capabilities of the strongest closed-source models. As an early exploration of agent-based modeling for world-grounded image synthesis, our work highlights the value of tightly coupling reasoning, searching, and generation for reliable open-world agentic image synthesis.