Game of Thought: Robust Information Seeking with Large Language Models Using Game Theory

作者: Langyuan Cui, Chun Kai Ling, Hwee Tou Ng

分类: cs.CL, cs.AI, cs.GT

发布日期: 2026-02-02

备注: 23 pages, 10 figures, under review at ICML 2026

💡 一句话要点

提出Game of Thought框架，利用博弈论提升大语言模型在信息搜寻任务中的鲁棒性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 信息搜寻 博弈论 鲁棒性 对抗性环境

📋 核心要点

现有大语言模型在信息不足时，主动信息搜寻能力不足，且现有方法在最坏情况下表现不佳。
提出Game of Thought框架，将信息搜寻问题建模为博弈，利用博弈论寻找纳什均衡策略。
实验表明，GoT框架在各种设置下，均能提升大语言模型在信息搜寻任务中的最坏情况性能。

📝 摘要（中文）

大型语言模型(LLMs)越来越多地部署在现实场景中，但它们可能缺乏完成给定任务的足够信息。在这种情况下，主动寻找缺失信息的能力至关重要。现有的增强这种能力的方法通常依赖于简化的假设，这会降低 extit{最坏情况}下的性能。这在高风险应用中是一个具有严重影响的问题。在这项工作中，我们使用“二十个问题”游戏来评估LLM的信息搜寻能力。我们引入并形式化了它的对抗性对应物，即战略语言搜索(SLS)问题及其变体，作为一个双人零和扩展形式博弈。我们提出了Game of Thought (GoT)，一个应用博弈论技术来近似该游戏受限变体的纳什均衡(NE)策略的框架。经验结果表明，与(1)基于直接提示的方法和(2)基于启发式引导的搜索方法相比，我们的方法在所有测试设置中始终提高了最坏情况下的性能。

🔬 方法详解

问题定义：论文旨在解决大语言模型在信息搜寻任务中，面对对抗性环境时鲁棒性不足的问题。现有方法通常基于简化的假设，导致在最坏情况下性能显著下降，无法保证在高风险应用中的可靠性。论文将此问题形式化为战略语言搜索（SLS）问题，作为“二十个问题”游戏的对抗性版本。

核心思路：论文的核心思路是将信息搜寻过程建模为一个双人零和博弈，其中一个玩家（LLM）试图通过提问获取信息，另一个玩家（对抗者）则试图给出误导性答案。通过寻找该博弈的纳什均衡（NE）策略，可以得到在最坏情况下也能保证一定性能的信息搜寻策略。这种方法的核心在于利用博弈论的框架，显式地考虑了对抗性环境的影响，从而提升了模型的鲁棒性。

技术框架：Game of Thought (GoT)框架包含以下主要步骤：1. 将信息搜寻问题建模为双人零和扩展形式博弈。2. 使用博弈论技术（具体方法未知，论文中可能未详细说明）来近似计算该博弈的纳什均衡策略。3. 利用得到的纳什均衡策略指导大语言模型进行信息搜寻。具体来说，LLM根据当前状态和纳什均衡策略选择下一个问题，并根据收到的答案更新状态，直到找到目标信息或达到最大提问次数。

关键创新：论文的关键创新在于将博弈论引入到大语言模型的信息搜寻任务中，并显式地考虑了对抗性环境的影响。与传统的基于启发式搜索或直接提示的方法相比，GoT框架能够更好地应对最坏情况，从而提升了模型的鲁棒性。此外，将信息搜寻问题形式化为战略语言搜索（SLS）问题，为后续研究提供了标准化的评估基准。

关键设计：论文中关于博弈论技术的具体实现细节未知。但是，可以推测可能涉及到对博弈树的搜索和评估，以及对纳什均衡的近似计算。此外，如何有效地将纳什均衡策略融入到大语言模型的提示中，以及如何设计合适的奖励函数来鼓励模型学习有效的提问策略，也是关键的设计考虑因素。论文中可能还涉及到对提问次数的限制，以及对答案质量的评估等方面的设计。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Game of Thought框架在各种测试设置下，均能显著提升大语言模型在信息搜寻任务中的最坏情况性能。与基于直接提示的方法和基于启发式引导的搜索方法相比，GoT框架能够更有效地应对对抗性环境，从而提高了模型的鲁棒性。具体的性能提升幅度未知，需要在论文中查找更详细的实验数据。

🎯 应用场景

该研究成果可应用于需要高可靠性和鲁棒性的信息搜寻场景，例如医疗诊断、金融风险评估、法律咨询等。通过提升大语言模型在对抗性环境下的信息搜寻能力，可以减少错误决策的风险，提高决策的准确性和可靠性。未来，该方法还可以扩展到其他需要主动信息获取的任务中，例如机器人导航、智能客服等。

📄 摘要（原文）

Large Language Models (LLMs) are increasingly deployed in real-world scenarios where they may lack sufficient information to complete a given task. In such settings, the ability to actively seek out missing information becomes a critical capability. Existing approaches to enhancing this ability often rely on simplifying assumptions that degrade \textit{worst-case} performance. This is an issue with serious implications in high-stakes applications. In this work, we use the game of Twenty Questions to evaluate the information-seeking ability of LLMs. We introduce and formalize its adversarial counterpart, the Strategic Language Search (SLS) problem along with its variants as a two-player zero-sum extensive form game. We propose Game of Thought (GoT), a framework that applies game-theoretic techniques to approximate a Nash equilibrium (NE) strategy for the restricted variant of the game. Empirical results demonstrate that our approach consistently improves worst-case performance compared to (1) direct prompting-based methods and (2) heuristic-guided search methods across all tested settings.

Game of Thought: Robust Information Seeking with Large Language Models Using Game Theory

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理