MUSE: A Multi-agent Framework for Unconstrained Story Envisioning via Closed-Loop Cognitive Orchestration

作者: Wenzhang Sun, Zhenyu Wang, Zhangchi Hu, Chunfeng Wang, Hao Li, Wei Chen

分类: cs.CV

发布日期: 2026-02-03

💡 一句话要点

MUSE：通过闭环认知编排的多智能体框架，用于无约束的故事构想

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 故事生成 闭环控制 多模态融合 叙事连贯性 身份一致性 视听内容生成

📋 核心要点

现有方法在长时程故事生成中存在语义漂移和身份不一致问题，难以保持高层叙事意图。
MUSE框架通过闭环约束执行，迭代地计划、执行、验证和修正，实现连贯的故事生成。
MUSEBench评估协议和实验结果表明，MUSE在叙事连贯性、身份一致性和电影质量方面有显著提升。

📝 摘要（中文）

本文提出MUSE，一个多智能体框架，旨在解决从简短用户提示生成长篇视听故事的挑战。该挑战的核心在于意图-执行的差距，即如何在长时程内，通过连贯的镜头级多模态生成，保持高层叙事意图。现有方法通常依赖于前馈pipeline或仅基于prompt的优化，导致语义漂移和身份不一致。MUSE将故事讲述建模为闭环约束执行问题，通过迭代的计划-执行-验证-修正循环协调生成过程。MUSE将叙事意图转化为对身份、空间构成和时间连续性的显式、机器可执行的控制，并应用有针对性的多模态反馈来纠正生成过程中的违规行为。为了评估无ground-truth参考的开放式故事讲述，本文引入了MUSEBench，一个经过人工判断验证的无参考评估协议。实验表明，与代表性基线相比，MUSE显著提高了长时程叙事连贯性、跨模态身份一致性和电影质量。

🔬 方法详解

问题定义：论文旨在解决从简短的用户提示生成长篇视听故事的难题。现有方法，如前馈pipeline或prompt-only refinement，在长时程生成中容易出现语义漂移和身份不一致的问题，无法很好地保持用户最初的叙事意图。这些方法缺乏有效的反馈机制来纠正生成过程中的偏差。

核心思路：论文的核心思路是将故事讲述过程建模为一个闭环约束执行问题。通过引入多智能体框架，每个智能体负责不同的方面（如身份、空间、时间），并进行迭代的计划、执行、验证和修正，从而保证生成过程的连贯性和一致性。这种闭环反馈机制能够及时纠正生成过程中的偏差，避免语义漂移。

技术框架：MUSE框架包含多个智能体，每个智能体负责控制故事的不同方面。整体流程如下：1) 计划阶段：根据用户prompt，生成初步的叙事计划，包括角色身份、场景布局和时间线。2) 执行阶段：基于叙事计划，生成相应的视听内容。3) 验证阶段：利用多模态反馈机制，评估生成的视听内容是否符合叙事计划，例如，角色身份是否一致，场景布局是否合理，时间线是否连贯。4) 修正阶段：如果验证结果不符合要求，则对生成内容进行修正，并重新进入执行阶段，直到满足要求为止。

关键创新：MUSE的关键创新在于将故事生成过程转化为一个闭环约束执行问题，并利用多智能体框架进行协调。与传统的feed-forward方法相比，MUSE能够通过迭代的反馈和修正，更好地保持叙事意图，避免语义漂移和身份不一致。此外，MUSEBench提供了一个无参考的评估协议，用于评估开放式故事讲述的质量。

关键设计：MUSE框架的关键设计包括：1) 多智能体架构：每个智能体负责控制故事的不同方面，例如，身份智能体负责保持角色身份的一致性，空间智能体负责控制场景布局的合理性，时间智能体负责保证时间线的连贯性。2) 多模态反馈机制：利用视觉和听觉信息，评估生成内容是否符合叙事计划。例如，可以使用人脸识别技术来验证角色身份是否一致，可以使用场景理解技术来评估场景布局是否合理。3) 迭代优化算法：通过迭代的计划、执行、验证和修正，逐步优化生成内容，直到满足要求为止。具体的参数设置、损失函数和网络结构等技术细节在论文中进行了详细描述（此处未知，需查阅论文原文）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MUSE在长时程叙事连贯性、跨模态身份一致性和电影质量方面显著优于现有基线方法。具体而言，MUSE在MUSEBench上的评估指标（具体指标未知，需查阅论文原文）上取得了显著提升，表明其能够更好地保持叙事意图，避免语义漂移和身份不一致。人工评估也证实了MUSE生成的视听内容具有更高的质量和更强的吸引力。

🎯 应用场景

MUSE框架具有广泛的应用前景，例如，可以用于自动生成电影、电视剧、动画片等视听内容，也可以用于创作个性化的故事，满足不同用户的需求。此外，MUSE还可以应用于教育领域，帮助学生学习故事创作和叙事技巧。该研究的实际价值在于降低了视听内容创作的门槛，提高了创作效率，并为未来的智能内容生成提供了新的思路。

📄 摘要（原文）

Generating long-form audio-visual stories from a short user prompt remains challenging due to an intent-execution gap, where high-level narrative intent must be preserved across coherent, shot-level multimodal generation over long horizons. Existing approaches typically rely on feed-forward pipelines or prompt-only refinement, which often leads to semantic drift and identity inconsistency as sequences grow longer. We address this challenge by formulating storytelling as a closed-loop constraint enforcement problem and propose MUSE, a multi-agent framework that coordinates generation through an iterative plan-execute-verify-revise loop. MUSE translates narrative intent into explicit, machine-executable controls over identity, spatial composition, and temporal continuity, and applies targeted multimodal feedback to correct violations during generation. To evaluate open-ended storytelling without ground-truth references, we introduce MUSEBench, a reference-free evaluation protocol validated by human judgments. Experiments demonstrate that MUSE substantially improves long-horizon narrative coherence, cross-modal identity consistency, and cinematic quality compared with representative baselines.

MUSE: A Multi-agent Framework for Unconstrained Story Envisioning via Closed-Loop Cognitive Orchestration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理