LLM-Based Authoring of Agent-Based Narratives through Scene Descriptions
作者: Vinayak Regmi, Christos Mousas
分类: cs.GR
发布日期: 2025-12-23
💡 一句话要点
提出一种基于LLM的叙事生成系统,通过场景描述驱动Agent行为。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agent叙事生成 大型语言模型 程序化内容生成 虚拟Agent 场景描述
📋 核心要点
- 现有Agent叙事生成方法缺乏灵活性和可扩展性,难以快速原型设计复杂的Agent交互。
- 利用LLM的强大语言理解和生成能力,将场景描述转化为Agent行为序列,实现叙事自动化生成。
- 实验表明,该系统能够有效地将场景描述转化为可执行的Agent行为,并评估了不同LLM的性能。
📝 摘要(中文)
本文提出了一种利用大型语言模型(LLM)程序化生成基于Agent的叙事的系统。用户可以将多个Agent和对象拖放到场景中,每个实体都会自动分配语义元数据,描述其身份、角色和潜在交互。然后,场景结构被序列化为自然语言提示,并发送到LLM,LLM返回一个结构化的字符串,描述Agent和对象之间的一系列动作和交互。返回的字符串编码了谁执行了哪些动作、何时以及如何执行。自定义解析器解释此字符串并触发协调的Agent行为、动画和交互模块。该系统支持基于Agent的场景、动态对象操作和多样化的交互类型。该系统设计易于使用且可快速迭代,能够生成适合原型设计Agent叙事的虚拟Agent活动。使用四种流行的轻量级LLM评估了所开发系统的性能。在多种复杂性场景下测量了每个模型的处理和响应时间。分析收集的数据,以比较所检查场景之间的一致性,并突出显示每个模型在程序化基于Agent的叙事生成方面的相对效率和适用性。结果表明,LLM可以可靠地将高级场景描述转换为可执行的基于Agent的行为。
🔬 方法详解
问题定义:现有Agent叙事生成方法通常需要手动设计Agent的行为和交互逻辑,过程繁琐且难以扩展。尤其是在复杂场景下,设计Agent之间的协调行为和动态交互是一项挑战。此外,快速原型设计和迭代Agent叙事也存在困难。
核心思路:利用大型语言模型(LLM)的强大自然语言理解和生成能力,将场景描述转化为Agent的行为序列。通过将场景信息编码为自然语言提示,输入LLM,LLM可以生成结构化的文本,描述Agent在场景中的动作和交互。这种方法将叙事生成过程从手动设计转变为基于LLM的自动生成,大大提高了效率和灵活性。
技术框架:该系统主要包含以下几个模块:1) 场景构建模块:允许用户拖拽Agent和对象到场景中,并自动分配语义元数据。2) 提示生成模块:将场景结构序列化为自然语言提示。3) LLM推理模块:接收提示并生成Agent行为序列的结构化文本。4) 行为解析与执行模块:解析LLM生成的文本,并触发相应的Agent行为、动画和交互模块。
关键创新:该方法的核心创新在于利用LLM作为Agent叙事生成的“大脑”,将高层次的场景描述转化为低层次的可执行Agent行为。与传统的基于规则或状态机的Agent行为设计方法相比,该方法更加灵活和可扩展,能够处理更复杂的场景和交互。
关键设计:提示工程是关键设计之一,需要设计合适的提示模板,以便LLM能够理解场景信息并生成合理的Agent行为序列。此外,行为解析器的设计也至关重要,需要能够准确地解析LLM生成的结构化文本,并将其转化为可执行的Agent指令。论文中评估了四种轻量级LLM,并分析了它们在不同复杂性场景下的性能表现。
🖼️ 关键图片
📊 实验亮点
实验评估了四种轻量级LLM在不同复杂性场景下的性能。结果表明,LLM能够可靠地将高层次的场景描述转化为可执行的Agent行为。论文测量了每个模型的处理和响应时间,并分析了它们在不同场景下的一致性。这些数据为选择合适的LLM用于Agent叙事生成提供了参考。
🎯 应用场景
该研究成果可应用于游戏开发、虚拟现实、教育培训等领域。例如,游戏开发者可以利用该系统快速生成游戏剧情和NPC行为,VR/AR开发者可以创建更具沉浸感的交互式体验,教育机构可以设计基于Agent的模拟训练场景。该技术有望降低Agent叙事生成的门槛,促进相关领域的创新。
📄 摘要(原文)
This paper presents a system for procedurally generating agent-based narratives using large language models (LLMs). Users could drag and drop multiple agents and objects into a scene, with each entity automatically assigned semantic metadata describing its identity, role, and potential interactions. The scene structure is then serialized into a natural language prompt and sent to an LLM, which returns a structured string describing a sequence of actions and interactions among agents and objects. The returned string encodes who performed which actions, when, and how. A custom parser interprets this string and triggers coordinated agent behaviors, animations, and interaction modules. The system supports agent-based scenes, dynamic object manipulation, and diverse interaction types. Designed for ease of use and rapid iteration, the system enables the generation of virtual agent activity suitable for prototyping agent narratives. The performance of the developed system was evaluated using four popular lightweight LLMs. Each model's process and response time were measured under multiple complexity scenarios. The collected data were analyzed to compare consistency across the examined scenarios and to highlight the relative efficiency and suitability of each model for procedural agent-based narratives generation. The results demonstrate that LLMs can reliably translate high-level scene descriptions into executable agent-based behaviors.