The Image Reconstruction Game: Drawing Common Ground Through Iterative Multimodal Dialogue

📄 arXiv: 2606.01901v1 📥 PDF

作者: Sherzod Hakimov, Mattia D'Agostini, Ivan Samodelkin, David Schlangen

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-06-01


💡 一句话要点

提出图像重建游戏基准,通过迭代多模态对话提升图像生成质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像重建 多模态对话 视觉-语言模型 迭代生成 共识建立

📋 核心要点

  1. 现有图像生成缺乏可解释的迭代改进过程,难以观察模型间的共识。
  2. 提出图像重建游戏,通过多轮对话式的修正指令,使图像生成过程更透明。
  3. 实验表明描述器模型对重建质量影响更大,而生成器决定迭代是否有帮助。

📝 摘要(中文)

本文提出了一种名为“图像重建游戏”的全自动基准测试,其中视觉-语言模型通过多轮对话向图像生成器发出修正指令,从而使累积的共识直接体现为渲染图像。通过在七个图像类别中对两个描述器模型和两个生成器模型进行基准测试,发现描述器是重建质量的主要决定因素,而生成器决定了迭代改进是否有帮助。数学和几何图像最具挑战性。描述器的token预算强烈影响收敛:较短的预算产生更稀疏的初始渲染,有更多可见的改进空间,而较长的预算提高了绝对质量,但留下的修复空间较小。更强的描述器使用更丰富的修正词汇,涵盖空间、数字和结构类别,而较弱的描述器则专注于表面属性,并且倾向于在几轮后停止。人工验证表明,最佳的自动评估器与人类偏好仅达成轻微到一般的协议,并且自动评分需要人工重新校准才能可靠使用。

🔬 方法详解

问题定义:论文旨在解决图像生成过程中缺乏可解释的迭代改进机制的问题。现有方法通常是单次生成,难以观察模型之间的共识,也难以进行精细的控制和修正。这限制了图像生成的可控性和质量。

核心思路:论文的核心思路是通过构建一个迭代的多模态对话框架,让一个“描述器”模型观察生成的图像并给出修正指令,然后一个“生成器”模型根据指令更新图像。这个过程重复多次,直到图像达到满意的质量。通过这种方式,可以观察到模型之间的共识是如何逐步建立的,并对图像生成过程进行更精细的控制。

技术框架:图像重建游戏包含两个主要模块:描述器和生成器。描述器负责观察当前生成的图像,并生成描述图像缺陷和提出修正建议的文本指令。生成器接收描述器的指令,并根据指令对图像进行更新和改进。整个过程是一个迭代的循环,描述器和生成器通过多轮对话逐步完善图像。论文使用不同的视觉-语言模型作为描述器和生成器,并设计了相应的训练和评估方法。

关键创新:该论文的关键创新在于提出了一个全新的图像重建游戏框架,将图像生成过程转化为一个迭代的多模态对话过程。这种方法不仅提高了图像生成的可控性和质量,还使得模型之间的共识建立过程变得透明和可观察。此外,该框架还提供了一个新的基准测试,可以用于评估不同视觉-语言模型在图像生成和理解方面的能力。

关键设计:论文的关键设计包括:1) 使用不同的视觉-语言模型作为描述器和生成器,例如CLIP和DALL-E;2) 设计了合适的文本指令格式,以便描述器能够清晰地表达图像缺陷和修正建议;3) 考虑了描述器的token预算对生成结果的影响,并进行了相应的实验分析;4) 使用自动评估指标和人工评估相结合的方式,对图像重建质量进行评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,描述器模型是图像重建质量的主要决定因素,而生成器模型决定了迭代改进是否有帮助。更强的描述器模型能够使用更丰富的修正词汇,涵盖空间、数字和结构类别。此外,实验还发现,自动评估指标与人类偏好之间存在差异,需要进行人工校准才能可靠使用。

🎯 应用场景

该研究成果可应用于图像编辑、设计和生成领域,例如,用户可以通过对话式交互,逐步完善图像的细节和风格。此外,该框架还可以用于训练更强大的视觉-语言模型,提高其在图像理解和生成方面的能力。未来,该技术有望应用于虚拟现实、游戏开发等领域,提供更自然和可控的图像生成体验。

📄 摘要(原文)

We introduce the Image Reconstruction Game, a fully automated benchmark in which a vision-language model issues corrective instructions to an image generator across multiple turns, making accumulated common ground directly observable as a rendered image. Benchmarking two Describer models crossed with two Generator models across seven image categories, we find that the describer is the dominant factor in reconstruction quality, while the generator determines whether iterative refinement helps or hurts. Mathematical and geometric images pose the greatest challenge. The describer's token budget strongly affects convergence: shorter budgets yield sparser first renderings with more room for visible improvement, while longer budgets raise absolute quality but leave less to fix. Stronger describers use a richer correction vocabulary spanning spatial, numeric, and structural categories, while weaker describers concentrate on surface properties and tend to stop after a few turns. Human validation shows that the best automated judge reaches only slight-to-fair agreement with human preferences, and automated scores require human recalibration to be used reliably.