Does Reasoning Help LLM Agents Play Dungeons and Dragons? A Prompt Engineering Experiment
作者: Patricia Delafuente, Arya Honraopatil, Lara J. Martin
分类: cs.CL
发布日期: 2025-10-20
备注: Published at the Wordplay: When Language Meets Games Workshop (EMNLP 2025)
💡 一句话要点
利用LLM推理能力生成《龙与地下城》游戏指令:提示工程实验
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 提示工程 游戏AI 指令生成 龙与地下城 机器人控制 自然语言处理
📋 核心要点
- 现有方法难以准确预测DnD玩家行为并将其转化为Avrae Discord机器人指令,需要更有效的方法。
- 论文探索利用LLM的推理能力,通过提示工程优化指令生成,旨在简化DnD游戏中的机器人控制。
- 实验表明,明确的指令提示对LLM生成准确指令至关重要,简单的指令模型即可满足需求,无需复杂推理。
📝 摘要(中文)
本文探讨了大型语言模型(LLMs)和推理能力在预测《龙与地下城》(DnD)玩家行为并将其格式化为Avrae Discord机器人命令中的应用。我们使用FIREBALL数据集,评估了一个推理模型DeepSeek-R1-Distill-LLaMA-8B和一个指令模型LLaMA-3.1-8B-Instruct,用于命令生成。我们的研究结果强调了向模型提供明确指令的重要性,即使提示中的单句变化也会极大地影响模型的输出,并且表明指令模型足以胜任此任务,而无需复杂的推理模型。
🔬 方法详解
问题定义:论文旨在解决如何利用大型语言模型(LLMs)自动生成《龙与地下城》(DnD)游戏中Avrae Discord机器人的指令。现有方法可能需要手动编写指令,效率低下且容易出错。此外,如何让LLM理解游戏情境并做出合理的决策也是一个挑战。
核心思路:论文的核心思路是通过提示工程(Prompt Engineering)来引导LLM,使其能够理解DnD游戏规则和玩家行为,并生成相应的Avrae指令。通过精心设计的提示,可以有效地控制LLM的输出,使其更符合游戏需求。论文对比了推理模型和指令模型,发现指令模型在特定提示下也能达到很好的效果。
技术框架:整体流程包括:1)使用FIREBALL数据集,该数据集包含DnD游戏场景和玩家行为;2)设计不同的提示模板,用于引导LLM生成Avrae指令;3)使用DeepSeek-R1-Distill-LLaMA-8B(推理模型)和LLaMA-3.1-8B-Instruct(指令模型)进行实验;4)评估生成的指令的准确性和有效性。
关键创新:论文的关键创新在于探索了提示工程在DnD游戏指令生成中的应用,并验证了简单的指令模型在特定提示下也能取得良好的效果。这表明,对于某些特定任务,不需要复杂的推理模型,通过优化提示即可实现目标。
关键设计:论文的关键设计包括:1)提示模板的设计,需要包含足够的信息,以便LLM理解游戏情境和玩家行为;2)对比不同类型的LLM(推理模型和指令模型)的性能;3)使用FIREBALL数据集进行评估,该数据集提供了真实的DnD游戏数据。
📊 实验亮点
实验结果表明,通过优化提示,简单的指令模型(LLaMA-3.1-8B-Instruct)在DnD游戏指令生成任务中表现良好,甚至可以与更复杂的推理模型(DeepSeek-R1-Distill-LLaMA-8B)相媲美。研究强调了提示工程的重要性,即使是提示中的细微变化也可能对模型输出产生显著影响。
🎯 应用场景
该研究成果可应用于自动化游戏助手开发,简化游戏操作,提升玩家体验。此外,该方法也可推广到其他需要指令生成的场景,例如机器人控制、智能家居等。通过提示工程,可以更有效地利用LLM的能力,降低开发成本,提高效率。
📄 摘要(原文)
This paper explores the application of Large Language Models (LLMs) and reasoning to predict Dungeons & Dragons (DnD) player actions and format them as Avrae Discord bot commands. Using the FIREBALL dataset, we evaluated a reasoning model, DeepSeek-R1-Distill-LLaMA-8B, and an instruct model, LLaMA-3.1-8B-Instruct, for command generation. Our findings highlight the importance of providing specific instructions to models, that even single sentence changes in prompts can greatly affect the output of models, and that instruct models are sufficient for this task compared to reasoning models.