MUSE: A Multi-agent Framework for Unconstrained Story Envisioning via Closed-Loop Cognitive Orchestration
作者: Wenzhang Sun, Zhenyu Wang, Zhangchi Hu, Chunfeng Wang, Hao Li, Wei Chen
分类: cs.CV
发布日期: 2026-02-03
💡 一句话要点
MUSE:通过闭环认知编排的多智能体框架,用于无约束的故事构想
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 故事生成 闭环控制 多模态融合 叙事连贯性 身份一致性 视听内容生成
📋 核心要点
- 现有方法在长时程故事生成中存在语义漂移和身份不一致问题,难以保持高层叙事意图。
- MUSE框架通过闭环约束执行,迭代地计划、执行、验证和修正,实现连贯的故事生成。
- MUSEBench评估协议和实验结果表明,MUSE在叙事连贯性、身份一致性和电影质量方面有显著提升。
📝 摘要(中文)
本文提出MUSE,一个多智能体框架,旨在解决从简短用户提示生成长篇视听故事的挑战。该挑战的核心在于意图-执行的差距,即如何在长时程内,通过连贯的镜头级多模态生成,保持高层叙事意图。现有方法通常依赖于前馈pipeline或仅基于prompt的优化,导致语义漂移和身份不一致。MUSE将故事讲述建模为闭环约束执行问题,通过迭代的计划-执行-验证-修正循环协调生成过程。MUSE将叙事意图转化为对身份、空间构成和时间连续性的显式、机器可执行的控制,并应用有针对性的多模态反馈来纠正生成过程中的违规行为。为了评估无ground-truth参考的开放式故事讲述,本文引入了MUSEBench,一个经过人工判断验证的无参考评估协议。实验表明,与代表性基线相比,MUSE显著提高了长时程叙事连贯性、跨模态身份一致性和电影质量。
🔬 方法详解
问题定义:论文旨在解决从简短的用户提示生成长篇视听故事的难题。现有方法,如前馈pipeline或prompt-only refinement,在长时程生成中容易出现语义漂移和身份不一致的问题,无法很好地保持用户最初的叙事意图。这些方法缺乏有效的反馈机制来纠正生成过程中的偏差。
核心思路:论文的核心思路是将故事讲述过程建模为一个闭环约束执行问题。通过引入多智能体框架,每个智能体负责不同的方面(如身份、空间、时间),并进行迭代的计划、执行、验证和修正,从而保证生成过程的连贯性和一致性。这种闭环反馈机制能够及时纠正生成过程中的偏差,避免语义漂移。
技术框架:MUSE框架包含多个智能体,每个智能体负责控制故事的不同方面。整体流程如下:1) 计划阶段:根据用户prompt,生成初步的叙事计划,包括角色身份、场景布局和时间线。2) 执行阶段:基于叙事计划,生成相应的视听内容。3) 验证阶段:利用多模态反馈机制,评估生成的视听内容是否符合叙事计划,例如,角色身份是否一致,场景布局是否合理,时间线是否连贯。4) 修正阶段:如果验证结果不符合要求,则对生成内容进行修正,并重新进入执行阶段,直到满足要求为止。
关键创新:MUSE的关键创新在于将故事生成过程转化为一个闭环约束执行问题,并利用多智能体框架进行协调。与传统的feed-forward方法相比,MUSE能够通过迭代的反馈和修正,更好地保持叙事意图,避免语义漂移和身份不一致。此外,MUSEBench提供了一个无参考的评估协议,用于评估开放式故事讲述的质量。
关键设计:MUSE框架的关键设计包括:1) 多智能体架构:每个智能体负责控制故事的不同方面,例如,身份智能体负责保持角色身份的一致性,空间智能体负责控制场景布局的合理性,时间智能体负责保证时间线的连贯性。2) 多模态反馈机制:利用视觉和听觉信息,评估生成内容是否符合叙事计划。例如,可以使用人脸识别技术来验证角色身份是否一致,可以使用场景理解技术来评估场景布局是否合理。3) 迭代优化算法:通过迭代的计划、执行、验证和修正,逐步优化生成内容,直到满足要求为止。具体的参数设置、损失函数和网络结构等技术细节在论文中进行了详细描述(此处未知,需查阅论文原文)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MUSE在长时程叙事连贯性、跨模态身份一致性和电影质量方面显著优于现有基线方法。具体而言,MUSE在MUSEBench上的评估指标(具体指标未知,需查阅论文原文)上取得了显著提升,表明其能够更好地保持叙事意图,避免语义漂移和身份不一致。人工评估也证实了MUSE生成的视听内容具有更高的质量和更强的吸引力。
🎯 应用场景
MUSE框架具有广泛的应用前景,例如,可以用于自动生成电影、电视剧、动画片等视听内容,也可以用于创作个性化的故事,满足不同用户的需求。此外,MUSE还可以应用于教育领域,帮助学生学习故事创作和叙事技巧。该研究的实际价值在于降低了视听内容创作的门槛,提高了创作效率,并为未来的智能内容生成提供了新的思路。
📄 摘要(原文)
Generating long-form audio-visual stories from a short user prompt remains challenging due to an intent-execution gap, where high-level narrative intent must be preserved across coherent, shot-level multimodal generation over long horizons. Existing approaches typically rely on feed-forward pipelines or prompt-only refinement, which often leads to semantic drift and identity inconsistency as sequences grow longer. We address this challenge by formulating storytelling as a closed-loop constraint enforcement problem and propose MUSE, a multi-agent framework that coordinates generation through an iterative plan-execute-verify-revise loop. MUSE translates narrative intent into explicit, machine-executable controls over identity, spatial composition, and temporal continuity, and applies targeted multimodal feedback to correct violations during generation. To evaluate open-ended storytelling without ground-truth references, we introduce MUSEBench, a reference-free evaluation protocol validated by human judgments. Experiments demonstrate that MUSE substantially improves long-horizon narrative coherence, cross-modal identity consistency, and cinematic quality compared with representative baselines.