Making New Connections: LLMs as Puzzle Generators for The New York Times' Connections Word Game

📄 arXiv: 2407.11240v1 📥 PDF

作者: Tim Merino, Sam Earle, Ryan Sudhakaran, Shyam Sudhakaran, Julian Togelius

分类: cs.AI, cs.CL

发布日期: 2024-07-15


💡 一句话要点

利用大型语言模型生成《纽约时报》Connections文字游戏谜题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 程序化内容生成 文字游戏 思维树 谜题生成

📋 核心要点

  1. Connections谜题生成需要模拟人类解题者的推理过程,这对于程序化内容生成(PCG)是一个独特的挑战。
  2. 论文提出了一种基于思维树(ToT)提示方法,利用大型语言模型(LLM)生成高质量的Connections谜题。
  3. 用户研究表明,LLM生成的谜题在趣味性、挑战性和创造性方面与人工设计的谜题相当,甚至更好。

📝 摘要(中文)

Connections是一款由《纽约时报》(NYT)每日发布的单词联想游戏。玩家需要找出四个由共同主题连接的单词组。解决Connections谜题需要语义知识和抽象推理,而生成新的谜题还需要元认知能力:生成器必须能够准确地模拟潜在解题者的下游推理。本文研究了GPT系列大型语言模型(LLM)为人类玩家生成具有挑战性和创造性的文字游戏的能力。首先分析了文字游戏Connections及其作为程序化内容生成(PCG)领域的独特挑战。然后,提出了一种使用LLM生成Connections谜题的方法,该方法改编自思维树(ToT)提示方法。通过用户研究评估了该方法,要求人类玩家将AI生成的谜题与已发布的Connections谜题进行比较。研究结果表明,LLM能够胜任谜题创建者的角色,并且可以生成多样化的、令人愉悦的、具有挑战性和创造性的Connections谜题,这些都得到了人类用户的认可。

🔬 方法详解

问题定义:论文旨在解决如何利用大型语言模型自动生成高质量的《纽约时报》Connections文字游戏谜题的问题。现有方法在生成此类谜题时,难以模拟人类解题者的推理过程,导致生成的谜题质量不高,缺乏趣味性和挑战性。

核心思路:论文的核心思路是利用大型语言模型的强大语言理解和生成能力,结合思维树(Tree of Thoughts, ToT)提示方法,引导LLM进行多步骤的推理和生成,从而生成更具创意和挑战性的谜题。ToT方法允许LLM探索多个可能的解题路径,并选择最优的路径生成最终的谜题。

技术框架:整体框架包括以下几个主要阶段:1) 主题生成:LLM首先生成若干个潜在的主题;2) 单词选择:针对每个主题,LLM选择四个相关的单词;3) 谜题评估:LLM评估生成的谜题的难度和趣味性;4) 谜题优化:根据评估结果,LLM对谜题进行优化,例如调整单词或主题。整个过程通过ToT方法进行迭代,直到生成满足要求的谜题。

关键创新:最重要的技术创新点是将思维树(ToT)提示方法应用于Connections谜题生成。与传统的单步生成方法相比,ToT方法允许LLM进行更深入的推理和探索,从而生成更具创意和挑战性的谜题。此外,论文还提出了一种基于LLM的谜题评估方法,用于评估生成的谜题的质量。

关键设计:论文的关键设计包括:1) 使用GPT系列LLM作为基础模型;2) 设计合适的ToT提示模板,引导LLM进行多步骤推理;3) 设计基于LLM的谜题评估指标,例如难度和趣味性;4) 通过用户研究对生成的谜题进行评估和反馈,从而进一步优化模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过用户研究表明,基于LLM和ToT方法生成的Connections谜题在趣味性、挑战性和创造性方面与人工设计的谜题相当,甚至更好。用户反馈表明,LLM生成的谜题更具创意,能够带来更好的解题体验。这些结果表明,LLM在程序化内容生成领域具有巨大的潜力。

🎯 应用场景

该研究成果可应用于自动生成各种类型的文字游戏和谜题,例如填字游戏、数独等。此外,该方法还可以扩展到其他程序化内容生成领域,例如故事生成、音乐生成等。通过自动生成高质量的内容,可以降低内容创作的成本,提高内容的多样性和个性化程度,为用户提供更丰富的娱乐体验。

📄 摘要(原文)

The Connections puzzle is a word association game published daily by The New York Times (NYT). In this game, players are asked to find groups of four words that are connected by a common theme. While solving a given Connections puzzle requires both semantic knowledge and abstract reasoning, generating novel puzzles additionally requires a form of metacognition: generators must be able to accurately model the downstream reasoning of potential solvers. In this paper, we investigate the ability of the GPT family of Large Language Models (LLMs) to generate challenging and creative word games for human players. We start with an analysis of the word game Connections and the unique challenges it poses as a Procedural Content Generation (PCG) domain. We then propose a method for generating Connections puzzles using LLMs by adapting a Tree of Thoughts (ToT) prompting approach. We evaluate this method by conducting a user study, asking human players to compare AI-generated puzzles against published Connections puzzles. Our findings show that LLMs are capable puzzle creators, and can generate diverse sets of enjoyable, challenging, and creative Connections puzzles as judged by human users.