Bringing The Consistency Gap: Explicit Structured Memory for Interleaved Image-Text Generation

📄 arXiv: 2510.10969v3 📥 PDF

作者: Zeteng Lin, Xingxing Li, Wen You, Xiaoyang Li, Zehan Lu, Yujun Cai, Jing Tang

分类: cs.CV

发布日期: 2025-10-13 (更新: 2025-12-30)


💡 一句话要点

提出IUT-Plug,通过显式结构化记忆解决图文交错生成中的多模态上下文漂移问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图文生成 多模态学习 上下文漂移 结构化记忆 神经符号 图像理解树 长程一致性

📋 核心要点

  1. 现有视觉语言模型在长程图文交互中存在“多模态上下文漂移”问题,导致逻辑和风格不一致。
  2. IUT-Plug引入图像理解树(IUT)作为显式记忆,通过神经符号方法跟踪和更新状态,保持一致性。
  3. 实验表明,IUT-Plug显著提高了图文交错生成的一致性,验证了显式符号 grounding 的有效性。

📝 摘要(中文)

现有的视觉语言模型(VLMs)在长时间的图文交错交互中,常常难以保持逻辑一致性、实体身份和艺术风格。我们将这种局限性定义为“多模态上下文漂移”,它源于隐式神经表示在长序列中衰减或纠缠的固有趋势。为了弥合这一差距,我们提出了一种模型无关的神经符号结构化状态跟踪机制IUT-Plug。与依赖于瞬时注意力图的纯神经方法不同,IUT-Plug引入了图像理解树(IUT)作为显式的、持久的记忆模块。该框架通过以下步骤运行:(1)将视觉场景解析为分层符号结构(实体、属性和关系);(2)执行增量状态更新,以逻辑上锁定不变属性,同时修改变化的元素;(3)通过拓扑约束引导生成。我们在一个包含3000个人工标注样本的新基准上评估了我们的方法。实验结果表明,IUT-Plug有效地缓解了上下文漂移,与非结构化文本提示基线相比,实现了显著更高的连贯性分数。这证实了显式符号 grounding 对于在多模态生成中保持鲁棒的长程一致性至关重要。

🔬 方法详解

问题定义:论文旨在解决图文交错生成任务中,视觉语言模型(VLMs)在长程交互过程中出现的“多模态上下文漂移”问题。现有方法依赖隐式神经表示,容易导致信息衰减和混淆,无法维持逻辑一致性、实体身份和艺术风格。

核心思路:论文的核心思路是引入显式的结构化记忆模块,即图像理解树(IUT),来存储和更新视觉场景的符号化表示。通过将视觉信息解析为实体、属性和关系,并进行增量式状态更新,从而保持长期一致性。

技术框架:IUT-Plug框架包含三个主要阶段:(1)视觉场景解析:将图像解析为分层符号结构,构建图像理解树(IUT);(2)状态更新:根据文本输入,增量式更新IUT,锁定不变属性,修改变化元素;(3)生成引导:利用IUT的拓扑约束,引导文本和图像的生成过程。

关键创新:关键创新在于使用显式的结构化记忆(IUT)替代隐式神经表示,从而避免信息衰减和混淆。此外,神经符号结合的方式,既利用了神经网络的感知能力,又结合了符号推理的逻辑性。

关键设计:IUT的构建和更新是关键。具体包括:使用预训练的目标检测模型提取实体,使用属性预测模型预测属性,使用关系预测模型建立实体间的关系。状态更新采用增量式方法,只更新发生变化的元素,保持不变元素的锁定。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在一个包含3000个人工标注样本的新基准上进行了评估。实验结果表明,IUT-Plug有效地缓解了上下文漂移,与非结构化文本提示基线相比,实现了显著更高的连贯性分数。这表明显式符号 grounding 对于在多模态生成中保持鲁棒的长程一致性至关重要。具体提升幅度未知。

🎯 应用场景

该研究成果可应用于智能对话系统、图像编辑、故事生成等领域。例如,在智能对话系统中,可以利用该方法生成更连贯、更符合逻辑的图文回复。在图像编辑中,可以实现更精确、更一致的图像修改。在故事生成中,可以生成更具逻辑性和连贯性的图文故事。

📄 摘要(原文)

Existing Vision Language Models (VLMs) often struggle to preserve logic, entity identity, and artistic style during extended, interleaved image-text interactions. We identify this limitation as "Multimodal Context Drift", which stems from the inherent tendency of implicit neural representations to decay or become entangled over long sequences. To bridge this gap, we propose IUT-Plug, a model-agnostic Neuro-Symbolic Structured State Tracking mechanism. Unlike purely neural approaches that rely on transient attention maps, IUT-Plug introduces the Image Understanding Tree (IUT) as an explicit, persistent memory module. The framework operates by (1) parsing visual scenes into hierarchical symbolic structures (entities, attributes, and relationships); (2) performing incremental state updates to logically lock invariant properties while modifying changing elements; and (3) guiding generation through topological constraints. We evaluate our approach on a novel benchmark comprising 3,000 human-annotated samples. Experimental results demonstrate that IUT-Plug effectively mitigates context drift, achieving significantly higher consistency scores compared to unstructured text-prompting baselines. This confirms that explicit symbolic grounding is essential for maintaining robust long-horizon consistency in multimodal generation.