Event-Driven Storytelling with Multiple Lifelike Humans in a 3D Scene

📄 arXiv: 2507.19232v1 📥 PDF

作者: Donggeun Lim, Jinseok Bae, Inwoo Hwang, Seungmin Lee, Hwanhee Lee, Young Min Kim

分类: cs.CV

发布日期: 2025-07-25

备注: 16 pages, project page: https://rms0329.github.io/Event-Driven-Storytelling/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出事件驱动框架,在3D场景中生成多人交互的动态故事

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事件驱动 故事生成 大型语言模型 3D场景 多智能体 上下文推理 虚拟人物 动作合成

📋 核心要点

  1. 现有方法难以生成大规模、具有复杂交互的虚拟人物动态场景,缺乏对人与人、人与场景关系的整体推理。
  2. 利用大型语言模型理解场景上下文,将故事生成分解为一系列事件,每个事件驱动相关角色和对象的动作合成。
  3. 构建了评估上下文推理能力的基准,实验结果和用户研究表明该框架能有效捕捉场景上下文,并具备良好可扩展性。

📝 摘要(中文)

本文提出了一个框架,用于创建生动的虚拟动态场景,其中包含多个具有上下文关联动作的人类角色。生成多人上下文动作需要对人与人以及人与场景之间的动态关系进行整体推理。我们利用大型语言模型(LLM)的能力来理解文本输入中的上下文复杂性,并将任务转化为具体的子问题,从而生成前所未有规模的多智能体行为。具体来说,我们的事件生成器将动态场景的时间演变形式化为一系列小事件。每个事件都需要明确的动作,涉及相关的角色和对象。接下来,我们根据空间引导对位置进行采样,并合成角色的动作。我们采用一个高层模块来提供可扩展且全面的上下文,将事件转化为相对描述,从而能够检索精确的坐标。作为第一个大规模且多样化地解决这个问题的工作,我们提供了一个基准来评估上下文推理的各个方面。基准测试结果和用户研究表明,我们的框架能够有效地捕捉场景上下文,并具有很高的可扩展性。

🔬 方法详解

问题定义:论文旨在解决在3D场景中生成具有多个逼真人类角色的、事件驱动的故事的问题。现有方法在处理大规模、复杂交互的场景时面临挑战,缺乏对人与人、人与场景之间动态关系的整体推理能力,难以生成具有上下文关联的自然动作。

核心思路:论文的核心思路是利用大型语言模型(LLM)理解文本描述的场景上下文,并将故事生成过程分解为一系列离散的事件。每个事件定义了特定角色和对象之间的交互,从而将复杂的整体故事生成问题转化为一系列更易于管理的子问题。通过事件驱动的方式,可以更好地控制场景的动态演变,并生成更具上下文关联性的角色动作。

技术框架:整体框架包含以下主要模块:1) 事件生成器:利用LLM将文本输入转化为一系列事件,每个事件描述了场景中的一个特定交互。2) 空间引导模块:根据事件的上下文信息,确定相关角色在场景中的大致位置。3) 动作合成模块:基于空间引导和事件描述,合成角色的具体动作。4) 高层上下文模块:将事件转化为相对描述,用于检索精确的坐标信息,从而实现可扩展且全面的上下文理解。

关键创新:该论文的关键创新在于将大型语言模型应用于事件驱动的故事生成,从而实现了对复杂场景上下文的理解和推理。通过将故事分解为一系列事件,并利用LLM生成这些事件,该方法能够生成比以往方法更大规模、更具多样性的虚拟人物动态场景。此外,论文还提出了一个用于评估上下文推理能力的基准,为该领域的研究提供了新的工具。

关键设计:论文中关键的设计包括:1) 使用LLM进行事件生成,需要设计合适的prompt工程,以确保LLM能够生成符合场景上下文的事件描述。2) 空间引导模块需要有效地将事件描述转化为角色的大致位置信息。3) 动作合成模块需要能够根据事件描述和空间引导,生成自然的、具有上下文关联的角色动作。4) 高层上下文模块的设计需要能够有效地将事件转化为相对描述,并检索精确的坐标信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了一个用于评估上下文推理能力的基准,并进行了用户研究。实验结果表明,该框架能够有效地捕捉场景上下文,并具有很高的可扩展性。具体性能数据未知,但用户研究表明生成的场景在真实性和上下文关联性方面表现良好。

🎯 应用场景

该研究成果可应用于游戏开发、虚拟现实、电影制作等领域,能够自动生成具有复杂人物交互的动态场景,提高内容创作效率和质量。例如,可以根据剧本自动生成电影场景,或为游戏中的非玩家角色(NPC)生成更逼真的行为。

📄 摘要(原文)

In this work, we propose a framework that creates a lively virtual dynamic scene with contextual motions of multiple humans. Generating multi-human contextual motion requires holistic reasoning over dynamic relationships among human-human and human-scene interactions. We adapt the power of a large language model (LLM) to digest the contextual complexity within textual input and convert the task into tangible subproblems such that we can generate multi-agent behavior beyond the scale that was not considered before. Specifically, our event generator formulates the temporal progression of a dynamic scene into a sequence of small events. Each event calls for a well-defined motion involving relevant characters and objects. Next, we synthesize the motions of characters at positions sampled based on spatial guidance. We employ a high-level module to deliver scalable yet comprehensive context, translating events into relative descriptions that enable the retrieval of precise coordinates. As the first to address this problem at scale and with diversity, we offer a benchmark to assess diverse aspects of contextual reasoning. Benchmark results and user studies show that our framework effectively captures scene context with high scalability. The code and benchmark, along with result videos, are available at our project page: https://rms0329.github.io/Event-Driven-Storytelling/.