AttriStory: Fine-grained Attribute Realization for Visual Storytelling with Diffusion Models

📄 arXiv: 2605.20777v1 📥 PDF

作者: Manogna Sreenivas, Rohit Kumar, Soma Biswas

分类: cs.CV

发布日期: 2026-05-20

备注: Accepted at CVPR AIStory Workshop, 2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

AttriStory:利用扩散模型实现视觉故事中细粒度属性控制

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉故事生成 扩散模型 属性控制 细粒度属性 交叉注意力

📋 核心要点

  1. 现有视觉故事生成方法在保持角色一致性方面表现出色,但缺乏对服装颜色、纹理等细粒度属性的系统控制。
  2. 论文提出AttriStory基准和一种潜在空间优化模块,通过AttriLoss引导模型关注期望的属性-对象对,实现属性的精细控制。
  3. 实验表明,AttriLoss能有效提升视觉故事生成中属性实现的准确性,且能与现有角色一致性方法无缝集成。

📝 摘要(中文)

本文提出AttriStory,一个用于在视觉故事生成中实现属性控制的基准。作者利用大型语言模型构建了包含200个多场景故事的数据集,涵盖10种不同的艺术风格。每个场景都包含详细的属性规范,以支持丰富的视觉叙事。为了解决属性实现问题,作者提出了一种即插即用的潜在空间优化模块,该模块在模型的早期去噪阶段运行,此时模型正在建立结构和语义内容。该模块通过AttriLoss目标函数实现,该函数旨在最大化期望属性-对象对的交叉注意力图之间的对齐,同时抑制虚假关联,从而引导模型正确定位属性。该方法与现有的角色一致性机制正交,可以无缝集成到当前的视觉故事生成流程中,而无需修改架构。实验表明,在所有基线上加入AttriLoss都能带来持续的改进。这项工作将属性实现定位为视觉故事生成中一个独特的、互补的维度,与角色一致性并列,从而推动该领域朝着细粒度的属性控制故事生成方向发展。

🔬 方法详解

问题定义:现有基于扩散模型的视觉故事生成方法虽然能够保证角色在不同场景中的一致性,但无法精确控制场景中物体的细粒度属性,例如服装的颜色、材质等。这导致生成的故事在视觉细节上缺乏一致性和可控性,限制了视觉叙事的丰富性和表达能力。

核心思路:论文的核心思路是在扩散模型的早期去噪阶段,通过优化潜在空间,引导模型关注期望的属性-对象对,从而实现对细粒度属性的精确控制。这种方法的核心在于利用交叉注意力机制,让模型学习属性和对象之间的关联,并抑制不相关的关联。

技术框架:AttriStory方法主要包含两个部分:一是AttriStory基准数据集,用于评估属性实现的效果;二是即插即用的潜在空间优化模块,该模块在扩散模型的早期去噪阶段运行。该模块通过AttriLoss目标函数来优化潜在空间,从而引导模型生成具有期望属性的图像。整个框架可以与现有的视觉故事生成流程无缝集成,无需修改模型架构。

关键创新:该方法最重要的创新点在于提出了AttriLoss目标函数,该函数能够有效地引导模型关注期望的属性-对象对,并抑制不相关的关联。与现有方法相比,AttriLoss能够更精确地控制生成图像的细粒度属性,从而提高视觉故事的质量和可控性。此外,该方法是即插即用的,可以方便地集成到现有的视觉故事生成流程中。

关键设计:AttriLoss的设计是关键。它基于交叉注意力图,计算期望属性-对象对之间的对齐程度,并惩罚不相关的关联。具体来说,AttriLoss包含两个部分:一是属性对齐损失,用于最大化期望属性-对象对的交叉注意力图之间的相似度;二是属性抑制损失,用于抑制不相关的属性-对象对之间的关联。此外,该方法还在扩散模型的早期去噪阶段进行优化,因为此时模型正在建立图像的结构和语义内容,更容易实现对属性的控制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在AttriStory基准数据集上,加入AttriLoss后,视觉故事生成模型在属性实现方面取得了显著的提升。具体来说,AttriLoss能够有效地提高生成图像中期望属性的准确性和一致性,并且能够与现有的角色一致性方法无缝集成。实验结果还表明,AttriLoss对不同的基线模型都有效,具有较强的泛化能力。

🎯 应用场景

该研究成果可应用于多种场景,例如:个性化故事生成,用户可以指定故事中人物的服装颜色、材质等属性;虚拟形象定制,用户可以根据自己的喜好定制虚拟形象的细节;游戏开发,可以用于生成具有特定属性的角色和场景。该研究有助于提升视觉内容的质量和可控性,具有广阔的应用前景。

📄 摘要(原文)

Visual storytelling with diffusion models has made impressive strides in maintaining character consistency across narrative scenes. However, a critical gap remains: while these methods ensure a character remains consistent across scenes, they provide no systematic method to ensure if fine-grained attributes such as color and textures of clothing, accessories are faithfully rendered in the generated images. Towards this goal, we introduce AttriStory, a benchmark enabling attribute realization in visual storytelling. We curate 200 multi-scene stories across 10 distinct artistic styles using Large Language Model. Each scene is constructed with detailed attribute specifications to enable rich visual narratives. Further, to address attribute realization, we propose a plug-and-play latent optimization module that operates during early denoising steps, when the model establishes structural and semantic content. We achieve this through AttriLoss objective designed to maximize alignment between the cross-attention maps for desired attribute-object pairs while suppressing spurious associations, guiding models to localize attributes correctly. This approach operates orthogonally to existing consistency mechanisms, integrating seamlessly with current story generation pipelines without requiring architectural modifications. Our experiments demonstrate consistent improvements on incorporating AttriLoss across all baselines. This work positions attribute realization as a distinct, complementary dimension of visual storytelling, alongside character consistency, advancing the field toward fine-grained attribute-controlled story generation. Project-page:https://manogna-s.github.io/attristory/