Can Large Language Models Capture Video Game Engagement?
作者: David Melhart, Matthew Barthet, Georgios N. Yannakakis
分类: cs.CV, cs.AI, cs.CL, cs.HC
发布日期: 2025-02-05
备注: This work has been submitted to the IEEE for possible publication
💡 一句话要点
评估大型语言模型在视频游戏中捕捉玩家参与度的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 视频游戏 情感识别 多模态学习 连续情感标注
📋 核心要点
- 现有方法难以准确捕捉视频游戏中玩家的细微情感变化,尤其是在连续情感标注方面。
- 本文利用大型语言模型的多模态能力,通过文本和视频帧序列提示,预测玩家在游戏中的参与度变化。
- 实验结果表明,现有LLM在捕捉连续情感标注方面仍有不足,但为未来研究提供了方向。
📝 摘要(中文)
本文首次全面评估了流行的预训练大型语言模型(LLM)在观察视频时,以多模态方式(文本和视频帧序列提示)注释和预测连续情感变化的能力。具体而言,本文测试了LLM在GameVibe语料库中,从20款第一人称射击游戏的80分钟带注释的游戏视频片段中,正确标记游戏内参与度变化的能力。通过超过2400次实验,研究了LLM架构、模型大小、输入模态、提示策略和ground truth处理方法对参与度预测的影响。研究结果表明,尽管LLM在多个领域声称具有类似人类的表现,但它们在捕捉人类提供的连续体验注释方面通常表现不佳。本文探讨了整体性能相对较差的一些根本原因,强调了LLM超出预期的案例,并为进一步探索通过LLM进行自动情感标注制定了路线图。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)在多大程度上能够理解和预测视频游戏中玩家的参与度。现有方法,特别是传统的情感识别方法,在处理连续、细粒度的情感变化时存在局限性,难以准确捕捉玩家在游戏过程中的真实情感体验。
核心思路:论文的核心思路是利用LLM强大的语言理解和生成能力,结合视频帧信息,构建一个多模态情感识别框架。通过将视频帧和文本提示输入LLM,让LLM学习视频内容与玩家参与度之间的关系,从而预测玩家的连续情感变化。这种方法试图模拟人类通过观察和理解视频内容来推断他人情感的过程。
技术框架:整体框架包含以下几个主要步骤:1) 数据准备:使用GameVibe语料库,该语料库包含20款第一人称射击游戏的视频片段,并带有玩家参与度的连续标注。2) 多模态输入构建:将视频帧和文本提示组合成LLM的输入。文本提示可以包含游戏信息、玩家行为描述等。3) LLM推理:使用不同的LLM架构(例如,基于Transformer的模型)进行推理,预测玩家的参与度。4) 结果评估:将LLM的预测结果与ground truth进行比较,评估模型的性能。
关键创新:该研究的关键创新在于首次系统性地评估了现成的(out-of-the-box)LLM在视频游戏情感识别领域的应用潜力。与以往专注于特定情感分类或回归任务的研究不同,该研究探索了LLM在连续情感标注方面的能力,并分析了不同因素(例如,模型大小、输入模态、提示策略)对模型性能的影响。
关键设计:实验中使用了多种LLM架构和模型大小,例如,不同参数规模的Transformer模型。输入模态包括视频帧、文本提示以及两者的组合。提示策略包括不同的文本描述方式,例如,提供游戏背景信息、玩家行为描述等。ground truth处理方法包括不同的平滑和归一化技术。评估指标包括预测值与真实值之间的相关性、均方误差等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,尽管LLM在多个领域表现出色,但在捕捉视频游戏中玩家的连续情感变化方面,其性能仍落后于人类标注。通过对2400多次实验的分析,发现模型大小、输入模态和提示策略对性能有一定影响,但整体提升有限。研究还发现,LLM在某些特定场景下(例如,玩家表现出强烈情感时)能够较好地预测参与度。
🎯 应用场景
该研究成果可应用于游戏AI、用户体验分析、情感计算等领域。通过自动识别玩家在游戏中的情感状态,可以优化游戏设计,提升用户体验,并为游戏AI提供更丰富的情感信息。此外,该技术还可以扩展到其他视频分析领域,例如,在线教育、远程医疗等,用于分析用户的参与度和情感反应。
📄 摘要(原文)
Can out-of-the-box pretrained Large Language Models (LLMs) detect human affect successfully when observing a video? To address this question, for the first time, we evaluate comprehensively the capacity of popular LLMs to annotate and successfully predict continuous affect annotations of videos when prompted by a sequence of text and video frames in a multimodal fashion. Particularly in this paper, we test LLMs' ability to correctly label changes of in-game engagement in 80 minutes of annotated videogame footage from 20 first-person shooter games of the GameVibe corpus. We run over 2,400 experiments to investigate the impact of LLM architecture, model size, input modality, prompting strategy, and ground truth processing method on engagement prediction. Our findings suggest that while LLMs rightfully claim human-like performance across multiple domains, they generally fall behind capturing continuous experience annotations provided by humans. We examine some of the underlying causes for the relatively poor overall performance, highlight the cases where LLMs exceed expectations, and draw a roadmap for the further exploration of automated emotion labelling via LLMs.