Designing and Evaluating Dialogue LLMs for Co-Creative Improvised Theatre

📄 arXiv: 2405.07111v1 📥 PDF

作者: Boyd Branch, Piotr Mirowski, Kory Mathewson, Sophia Ppali, Alexandra Covaci

分类: cs.CL

发布日期: 2024-05-11

备注: 13 pages, 7 figures, accepted for publication at the International Conference on Computational Creativity 2024


💡 一句话要点

在即兴戏剧中共创:设计并评估用于人机对话的LLM

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人机协作 即兴戏剧 对话系统 用户体验

📋 核心要点

  1. 现有对话系统难以在真实场景(如即兴戏剧)中进行多方、上下文相关的即时对话。
  2. 论文探索了大型语言模型(LLM)在人机共创即兴戏剧中的应用,并分析了其技术能力和局限性。
  3. 通过在爱丁堡艺术节的实际部署,收集了观众和表演者的反馈,揭示了人机交互在艺术领域的机遇与挑战。

📝 摘要(中文)

本研究关注社交机器人领域中日益增长的多方对话智能体的需求,在爱丁堡艺术节边缘的为期一个月的现场表演中部署大型语言模型(LLM)。该案例研究调查了人类即兴演员与对话智能体在专业剧院环境中的共创过程。研究探讨了LLM在即时多方对话中的技术能力和局限性,并提供了来自观众和表演者对舞台上AI体验的全面见解。研究采用人机协作方法,强调了LLM在生成上下文相关响应方面的挑战,并突出了用户界面的关键作用。观众反馈表明,他们对AI驱动的现场娱乐、直接人机交互以及对AI作为创造力支持工具的对话能力和实用性的多样化期望越来越感兴趣。人类表演者表达了极大的热情和不同的满意度,而不断变化的公众舆论突出了对AI在艺术领域作用的复杂情感。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在即兴戏剧这种复杂、动态的多方对话场景中的应用问题。现有方法难以生成与上下文高度相关的、具有创造性的响应,并且缺乏对用户体验的充分评估。即兴戏剧对对话的实时性、创造性和互动性提出了极高的要求,对LLM提出了严峻的挑战。

核心思路:论文的核心思路是将LLM作为即兴戏剧表演者的合作者,通过人机协作的方式共同创造表演内容。通过实际部署和用户反馈,深入了解LLM在这一场景下的能力和局限性,并为未来人机共创系统的设计提供指导。强调用户界面在提升LLM性能和改善用户体验中的关键作用。

技术框架:该研究采用人机协作的实验框架,将LLM集成到即兴戏剧表演中。主要流程包括:1) 选择合适的LLM模型;2) 设计用户界面,方便表演者与LLM进行交互;3) 在爱丁堡艺术节进行为期一个月的现场表演;4) 收集观众和表演者的反馈,进行定性和定量分析。具体模型选择和界面设计细节未知。

关键创新:该研究的创新点在于将LLM应用于即兴戏剧这一全新的场景,并采用实际部署和用户反馈的方式进行评估。与传统的对话系统评估方法不同,该研究更注重用户体验和人机协作的效果。通过分析用户反馈,揭示了LLM在创造性任务中的潜力和局限性。

关键设计:论文中关于关键设计细节的描述较少,例如LLM的具体选择、用户界面的设计、以及如何将LLM的输出集成到表演中等。这些细节对最终的表演效果和用户体验至关重要,但论文中并未详细说明。损失函数和网络结构等技术细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究最重要的亮点是在爱丁堡艺术节进行了为期一个月的现场表演,并收集了大量的用户反馈。观众反馈表明,他们对AI驱动的现场娱乐表现出浓厚的兴趣,并对AI的对话能力和创造力提出了多样化的期望。表演者也表达了对与AI合作的极大热情,同时也指出了LLM在生成上下文相关响应方面的挑战。

🎯 应用场景

该研究的潜在应用领域包括人机共创艺术、教育娱乐、以及其他需要创造性对话的场景。通过将LLM与人类的创造力相结合,可以产生更具创新性和吸引力的内容。研究结果有助于推动人机协作技术的发展,并为未来AI在艺术领域的应用提供指导。

📄 摘要(原文)

Social robotics researchers are increasingly interested in multi-party trained conversational agents. With a growing demand for real-world evaluations, our study presents Large Language Models (LLMs) deployed in a month-long live show at the Edinburgh Festival Fringe. This case study investigates human improvisers co-creating with conversational agents in a professional theatre setting. We explore the technical capabilities and constraints of on-the-spot multi-party dialogue, providing comprehensive insights from both audience and performer experiences with AI on stage. Our human-in-the-loop methodology underlines the challenges of these LLMs in generating context-relevant responses, stressing the user interface's crucial role. Audience feedback indicates an evolving interest for AI-driven live entertainment, direct human-AI interaction, and a diverse range of expectations about AI's conversational competence and utility as a creativity support tool. Human performers express immense enthusiasm, varied satisfaction, and the evolving public opinion highlights mixed emotions about AI's role in arts.