Persistent Story World Simulation with Continuous Character Customization

📄 arXiv: 2603.16285v1 📥 PDF

作者: Jinlu Zhang, Qiyun Wang, Baoxiang Du, Jiayi Ji, Jing He, Rongsheng Zhang, Tangjie Lv, Xiaoshuai Sun, Rongrong Ji

分类: cs.CV

发布日期: 2026-03-17


💡 一句话要点

EverTale:提出持续角色定制的故事世界模拟器,解决角色一致性与场景融合问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 故事可视化 角色定制 多角色生成 MLLM LoRA 区域聚焦采样 AI生成内容

📋 核心要点

  1. 现有故事可视化方法难以兼顾精确的角色定制、语义对齐以及新角色身份的持续集成。
  2. EverTale通过一体化LoRA模块实现角色连续适应,并引入MLLM进行角色质量评估,确保生成质量。
  3. 提出角色感知区域聚焦采样策略,协调角色细节与全局场景,解决多角色故事中的身份退化和布局冲突。

📝 摘要(中文)

本文提出EverTale,一个用于持续故事角色定制的故事世界模拟器,旨在解决当前故事可视化方法在精确角色定制、语义对齐和新身份连续集成方面的不足。我们首先提出了一个一体化世界角色集成器,通过统一的LoRA模块实现连续的角色适应,无需像先前方法那样为每个角色优化模块。然后,我们通过MLLM-as-Judge引入了一个角色质量门,通过思维链推理确保每个角色适应过程的保真度,从而决定模型是否可以继续下一个角色或需要对当前角色进行额外的训练。我们还引入了一种角色感知区域聚焦采样策略,以解决现有多个角色视觉故事讲述中的身份退化和布局冲突问题,通过协调局部角色特定细节与全局场景上下文,确保自然的多角色生成,并提高效率。实验结果表明,我们的EverTale在单角色和多角色故事可视化方面,相对于更广泛的比较方法,实现了卓越的性能。

🔬 方法详解

问题定义:现有故事可视化方法在角色定制方面存在局限性,难以实现精确的角色控制和语义对齐。此外,当需要持续集成新的角色身份时,现有方法通常需要为每个角色单独优化模块,效率低下。在多角色场景下,容易出现身份退化和布局冲突等问题,影响故事的连贯性和真实性。

核心思路:EverTale的核心思路是构建一个能够持续学习和适应新角色的故事世界模拟器。通过一体化的LoRA模块实现角色定制,避免了为每个角色单独训练模型的需要。利用MLLM进行角色质量评估,确保生成角色的保真度。采用角色感知区域聚焦采样策略,协调局部角色细节与全局场景上下文,从而生成自然的多角色故事。

技术框架:EverTale主要包含三个核心模块:1) 一体化世界角色集成器:使用统一的LoRA模块进行角色定制,实现角色身份的连续适应。2) 角色质量门:利用MLLM作为裁判,通过思维链推理评估角色生成的质量,决定是否需要进行额外的训练。3) 角色感知区域聚焦采样:根据角色在场景中的位置和属性,调整采样策略,从而协调局部角色细节与全局场景上下文。

关键创新:EverTale的关键创新在于:1) 提出了一体化的角色集成方法,避免了为每个角色单独训练模型的需要,提高了效率。2) 引入了MLLM进行角色质量评估,确保了生成角色的保真度。3) 提出了角色感知区域聚焦采样策略,有效解决了多角色场景下的身份退化和布局冲突问题。

关键设计:一体化LoRA模块的设计允许模型在统一的参数空间中学习不同角色的特征。MLLM-as-Judge使用思维链推理来评估角色生成的质量,包括角色的一致性、语义相关性和视觉逼真度。角色感知区域聚焦采样策略根据角色在场景中的位置和属性,动态调整采样权重,从而更好地协调局部细节与全局上下文。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EverTale在单角色和多角色故事可视化方面均取得了显著的性能提升。相较于现有方法,EverTale能够生成更逼真、更连贯的故事场景,并且能够更好地控制角色的身份和行为。具体的性能指标和提升幅度在论文中进行了详细的量化分析(未知)。

🎯 应用场景

EverTale可应用于故事创作、游戏开发、虚拟现实等领域。它可以帮助用户快速生成具有个性化角色的故事场景,提高内容创作的效率和质量。此外,该技术还可以用于教育领域,例如创建交互式故事,帮助学生更好地理解和记忆知识。未来,该技术有望应用于更广泛的领域,例如电影制作、广告设计等。

📄 摘要(原文)

Story visualization has gained increasing attention in computer vision. However, current methods often fail to achieve a synergy between accurate character customization, semantic alignment, and continuous integration of new identities. To tackle this challenge, in this paper we present EverTale, a story world simulator for continuous story character customization. We first propose an All-in-One-World Character Integrator to achieve continuous character adaptation within unified LoRA module, eliminating the need for per-character optimization modules of previous methods. Then, we incorporate a Character Quality Gate via MLLM-as-Judge to ensure the fidelity of each character adaptation process through chain-of-thought reasoning, determining whether the model can proceed to the next character or require additional training on the current one. We also introduce a Character-Aware Region-Focus Sampling strategy to address the identity degradation and layout conflicts in existing multi-character visual storytelling, ensuring natural multi-character generation by harmonizing local character-specific details with global scene context with higher efficiency. Experimental results show that our EverTale achieves superior performance against a wider range of compared methods on both single- and multi-character story visualization. Codes will be available.