Open Multimodal Retrieval-Augmented Factual Image Generation

📄 arXiv: 2510.22521v1 📥 PDF

作者: Yang Tian, Fan Liu, Jingyuan Zhang, Wei Bi, Yupeng Hu, Liqiang Nie

分类: cs.CV, cs.AI, cs.IR, cs.LG

发布日期: 2025-10-26

备注: Preprint


💡 一句话要点

提出ORIG框架,通过开放多模态检索增强,解决事实性图像生成中知识不准确问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事实性图像生成 多模态检索 开放域知识 检索增强 知识集成

📋 核心要点

  1. 现有方法依赖静态知识源,无法保证生成图像在细粒度属性或时效性事件上的事实准确性。
  2. ORIG框架通过代理式开放多模态检索,迭代地从网络获取并提炼知识,增强提示信息,指导图像生成。
  3. FIG-Eval基准测试表明,ORIG在事实一致性和图像质量上超越现有方法,验证了开放检索的有效性。

📝 摘要(中文)

大型多模态模型(LMMs)在生成逼真且与提示对齐的图像方面取得了显著进展,但它们经常产生与可验证知识相悖的输出,尤其是在提示涉及细粒度属性或时效性事件时。传统的检索增强方法试图通过引入外部信息来解决这个问题,但由于它们依赖于静态资源和浅层证据集成,因此从根本上无法将生成建立在准确和不断发展的知识之上。为了弥合这一差距,我们引入了ORIG,一个用于事实性图像生成(FIG)的代理式开放多模态检索增强框架。FIG是一项新任务,需要视觉真实感和事实基础。ORIG迭代地从网络检索和过滤多模态证据,并将提炼后的知识增量式地集成到丰富的提示中,以指导生成。为了支持系统评估,我们构建了FIG-Eval,一个跨越感知、组合和时间维度等十个类别的基准。实验表明,ORIG在事实一致性和整体图像质量方面显著优于强大的基线,突出了开放多模态检索在事实性图像生成方面的潜力。

🔬 方法详解

问题定义:论文旨在解决事实性图像生成(FIG)问题,即生成既逼真又符合事实的图像。现有方法,特别是依赖静态知识库的检索增强方法,难以处理需要细粒度属性或时效性知识的图像生成任务,导致生成结果与事实不符。

核心思路:论文的核心思路是利用开放域的多模态信息检索,动态地获取和提炼知识,并将其融入到图像生成过程中。通过迭代式的检索、过滤和集成,模型能够获取最新的、准确的事实信息,从而生成更符合事实的图像。这种方法避免了对静态知识库的依赖,能够更好地适应知识的演变。

技术框架:ORIG框架包含以下主要模块:1) 提示编码器:将用户输入的提示转换为向量表示。2) 多模态检索器:从网络上检索相关的文本和图像证据。3) 证据过滤器:过滤掉噪声和不相关的证据,保留高质量的信息。4) 知识集成器:将过滤后的证据融入到提示编码中,形成增强的提示。5) 图像生成器:根据增强的提示生成图像。整个流程是迭代进行的,每次迭代都会检索、过滤和集成新的知识,直到生成满意的图像。

关键创新:ORIG的关键创新在于其代理式的开放多模态检索增强方法。与传统的检索增强方法不同,ORIG不依赖于预定义的静态知识库,而是通过主动地从网络上检索信息来获取知识。此外,ORIG还采用了多模态检索和证据过滤机制,能够更有效地获取和提炼高质量的知识。

关键设计:论文中没有详细说明具体的参数设置、损失函数或网络结构等技术细节。但可以推测,检索器可能使用了预训练的文本和图像编码器,如CLIP,并采用余弦相似度等方法进行检索。证据过滤器可能使用了基于规则或机器学习的方法来评估证据的质量。知识集成器可能使用了注意力机制或门控机制来控制知识的融入程度。图像生成器可能使用了扩散模型或GAN等生成模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ORIG框架在FIG-Eval基准测试中显著提高了生成图像的事实一致性和整体质量。具体而言,ORIG在多个类别上都优于现有的图像生成模型,尤其是在需要时效性知识的任务上,提升幅度更为明显。这验证了开放多模态检索增强方法在事实性图像生成方面的有效性。

🎯 应用场景

该研究成果可应用于新闻图像生成、教育内容创作、虚拟现实场景构建等领域。通过确保生成图像的事实准确性,可以提高用户信任度,减少虚假信息的传播。未来,该技术有望应用于更广泛的智能内容生成场景,例如自动生成产品宣传图、历史事件重建等。

📄 摘要(原文)

Large Multimodal Models (LMMs) have achieved remarkable progress in generating photorealistic and prompt-aligned images, but they often produce outputs that contradict verifiable knowledge, especially when prompts involve fine-grained attributes or time-sensitive events. Conventional retrieval-augmented approaches attempt to address this issue by introducing external information, yet they are fundamentally incapable of grounding generation in accurate and evolving knowledge due to their reliance on static sources and shallow evidence integration. To bridge this gap, we introduce ORIG, an agentic open multimodal retrieval-augmented framework for Factual Image Generation (FIG), a new task that requires both visual realism and factual grounding. ORIG iteratively retrieves and filters multimodal evidence from the web and incrementally integrates the refined knowledge into enriched prompts to guide generation. To support systematic evaluation, we build FIG-Eval, a benchmark spanning ten categories across perceptual, compositional, and temporal dimensions. Experiments demonstrate that ORIG substantially improves factual consistency and overall image quality over strong baselines, highlighting the potential of open multimodal retrieval for factual image generation.