Adaptive Visual Conditioning for Semantic Consistency in Diffusion-Based Story Continuation
作者: Seyed Mohammad Mousavi, Morteza Analoui
分类: cs.CV
发布日期: 2025-10-15
💡 一句话要点
提出AVC框架,自适应视觉条件控制扩散模型,提升故事延续生成语义一致性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 故事延续 扩散模型 自适应视觉条件控制 语义一致性 CLIP模型
📋 核心要点
- 故事延续生成任务面临如何有效利用先前视觉信息,同时保证与当前文本语义对齐的挑战。
- AVC框架通过CLIP模型检索相关图像,并自适应地控制先前视觉信息在扩散过程中的影响。
- 实验结果表明,AVC在连贯性、语义一致性和视觉保真度方面优于现有方法。
📝 摘要(中文)
本文提出了一种基于扩散模型的故事延续框架——自适应视觉条件控制(AVC)。故事延续旨在生成叙事序列中的下一张图像,使其与已有的文本描述和先前观察到的图像保持连贯性。该任务的核心挑战在于如何有效地利用先前的视觉上下文,同时确保与当前文本输入的语义对齐。AVC利用CLIP模型检索先前帧中最符合语义的图像。当找不到足够相关的图像时,AVC会自适应地限制先前视觉信息对扩散过程早期阶段的影响,从而在有利时利用视觉上下文,避免注入误导性或不相关的信息。此外,我们通过使用大型语言模型重新标注噪声数据集来提高数据质量,从而加强文本监督和语义对齐。定量结果和人工评估表明,AVC在连贯性、语义一致性和视觉保真度方面优于强大的基线方法,尤其是在先前视觉信息与当前输入冲突的具有挑战性的情况下。
🔬 方法详解
问题定义:故事延续任务旨在根据已有的图像和文本描述生成下一张图像,关键在于如何有效地利用先前的视觉信息,同时保证与当前文本描述的语义一致性。现有方法在处理视觉信息与文本描述冲突的情况时,容易引入误导信息,导致生成结果语义不一致。
核心思路:核心思路是自适应地控制先前视觉信息对扩散过程的影响。当先前图像与当前文本语义相关时,充分利用视觉信息;当两者语义不相关时,限制视觉信息的影响,避免引入噪声。这种自适应控制通过CLIP模型判断语义相关性,并根据相关性调整视觉信息的注入强度。
技术框架:AVC框架基于扩散模型,主要包含以下模块:1) CLIP模型:用于计算先前图像与当前文本描述的语义相似度。2) 自适应视觉条件控制模块:根据CLIP模型计算的相似度,动态调整先前图像对扩散过程的影响。具体来说,当相似度较高时,在扩散过程的早期阶段注入视觉信息;当相似度较低时,限制视觉信息的影响,仅在极早期阶段注入少量信息。3) 扩散模型:负责根据文本描述和视觉信息生成图像。
关键创新:最重要的创新点在于自适应视觉条件控制机制。与现有方法直接将先前图像作为条件输入不同,AVC能够根据语义相关性动态调整视觉信息的影响,从而避免引入噪声,提高生成结果的语义一致性。这种自适应控制机制使得模型能够更好地处理视觉信息与文本描述冲突的情况。
关键设计:关键设计包括:1) 使用CLIP模型计算语义相似度,为自适应控制提供依据。2) 根据语义相似度调整视觉信息注入的时间步,相似度越高,注入时间越早。3) 使用大型语言模型重新标注数据集,提高数据质量,增强文本监督和语义对齐。
📊 实验亮点
实验结果表明,AVC框架在故事延续任务中取得了显著的性能提升。在定量指标方面,AVC在连贯性、语义一致性和视觉保真度方面均优于现有方法。人工评估结果也表明,AVC生成的图像更符合人类的认知,具有更高的质量。尤其是在先前视觉信息与当前输入冲突的具有挑战性的情况下,AVC的优势更加明显。
🎯 应用场景
该研究成果可应用于自动化故事创作、电影制作、游戏开发等领域。通过生成连贯且语义一致的图像序列,可以辅助创作者快速构建视觉故事,提高创作效率。此外,该技术还可用于虚拟现实和增强现实等领域,为用户提供更加沉浸式的体验。
📄 摘要(原文)
Story continuation focuses on generating the next image in a narrative sequence so that it remains coherent with both the ongoing text description and the previously observed images. A central challenge in this setting lies in utilizing prior visual context effectively, while ensuring semantic alignment with the current textual input. In this work, we introduce AVC (Adaptive Visual Conditioning), a framework for diffusion-based story continuation. AVC employs the CLIP model to retrieve the most semantically aligned image from previous frames. Crucially, when no sufficiently relevant image is found, AVC adaptively restricts the influence of prior visuals to only the early stages of the diffusion process. This enables the model to exploit visual context when beneficial, while avoiding the injection of misleading or irrelevant information. Furthermore, we improve data quality by re-captioning a noisy dataset using large language models, thereby strengthening textual supervision and semantic alignment. Quantitative results and human evaluations demonstrate that AVC achieves superior coherence, semantic consistency, and visual fidelity compared to strong baselines, particularly in challenging cases where prior visuals conflict with the current input.