A dataset of questions on decision-theoretic reasoning in Newcomb-like problems

📄 arXiv: 2411.10588v4 📥 PDF

作者: Caspar Oesterheld, Emery Cooper, Miles Kodama, Linh Chi Nguyen, Ethan Perez

分类: cs.CL, cs.AI

发布日期: 2024-11-15 (更新: 2025-06-16)

备注: 48 pages, 15 figures; code and data at https://github.com/casparoe/newcomblike_questions_dataset


💡 一句话要点

构建Newcomb类问题决策理论推理数据集,评估LLM的合作能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 决策理论 Newcomb问题 大型语言模型 智能体交互 数据集 推理能力 合作博弈

📋 核心要点

  1. 现有LLM在模拟智能体交互时,缺乏对Newcomb类问题的有效推理能力,限制了智能体间的合作。
  2. 构建包含能力和态度问题的Newcomb类问题数据集,用于评估和提升LLM的决策理论推理能力。
  3. 实验表明,不同LLM在态度上存在显著差异,且能力强的模型更倾向于证据决策理论。

📝 摘要(中文)

本文介绍了一个关于Newcomb类问题决策理论的自然语言问题数据集。Newcomb类问题包括智能体与类似智能体交互的决策问题,因此需要推理其他智能体可能以类似方式推理的事实。评估LLM对Newcomb类问题的推理能力非常重要,因为基于基础模型的智能体之间的交互通常类似于Newcomb问题。对Newcomb类问题进行推理的某些方法可以促进模型之间更好的合作。该数据集包含能力问题(即具有唯一、无争议正确答案的问题)和态度问题(即决策理论家会存在分歧的问题)。我们使用该数据集来研究现有模型(OpenAI、Anthropic、Meta、GDM、Reka等公司的不同模型)中决策理论的能力和表达的态度及其相互作用,以及在简单提示干预下的模型。我们发现,不同模型之间的态度差异显著;高能力与更有利于所谓证据决策理论的态度相关;并且态度在不同类型的问题中是一致的。

🔬 方法详解

问题定义:论文旨在解决LLM在Newcomb类问题上的决策推理能力不足的问题。现有方法缺乏对智能体间相互影响的有效建模,导致在类似博弈场景下无法做出最优决策,阻碍了智能体间的合作。

核心思路:论文的核心思路是通过构建一个包含能力问题和态度问题的Newcomb类问题数据集,来评估和提升LLM的决策推理能力。通过分析LLM在不同问题上的表现,揭示其决策偏好和推理缺陷,从而指导模型改进。

技术框架:该研究主要围绕数据集的构建和LLM的评估展开。数据集包含自然语言形式的Newcomb类问题,分为能力问题(有明确正确答案)和态度问题(涉及决策理论争议)。研究者使用该数据集对多个LLM进行评估,并分析其在不同问题上的表现。此外,还尝试了基于提示的干预方法,以观察其对模型决策的影响。

关键创新:该研究的关键创新在于构建了一个专门用于评估LLM在Newcomb类问题上决策推理能力的数据集。该数据集不仅包含客观的能力问题,还包含主观的态度问题,能够更全面地评估LLM的决策偏好和推理能力。

关键设计:数据集的设计考虑了Newcomb类问题的特点,问题设计涵盖了不同的场景和决策情境。能力问题旨在评估LLM的逻辑推理能力,而态度问题则旨在揭示LLM的决策偏好和价值观。研究者还设计了不同的提示策略,以观察其对模型决策的影响。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,不同LLM在Newcomb类问题上的态度存在显著差异,表明不同模型具有不同的决策偏好。此外,研究发现,能力更强的模型更倾向于证据决策理论,这表明逻辑推理能力与特定的决策偏好之间存在关联。该研究还发现,LLM在不同类型的问题上表现出一致的态度。

🎯 应用场景

该研究成果可应用于开发更智能、更具合作性的AI智能体。通过提升LLM在Newcomb类问题上的决策推理能力,可以促进智能体在复杂环境下的协作,例如在自动驾驶、金融交易、供应链管理等领域,实现更高效、更可靠的智能决策。

📄 摘要(原文)

We introduce a dataset of natural-language questions in the decision theory of so-called Newcomb-like problems. Newcomb-like problems include, for instance, decision problems in which an agent interacts with a similar other agent, and thus has to reason about the fact that the other agent will likely reason in similar ways. Evaluating LLM reasoning about Newcomb-like problems is important because interactions between foundation-model-based agents will often be Newcomb-like. Some ways of reasoning about Newcomb-like problems may allow for greater cooperation between models. Our dataset contains both capabilities questions (i.e., questions with a unique, uncontroversially correct answer) and attitude questions (i.e., questions about which decision theorists would disagree). We use our dataset for an investigation of decision-theoretical capabilities and expressed attitudes and their interplay in existing models (different models by OpenAI, Anthropic, Meta, GDM, Reka, etc.), as well as models under simple prompt-based interventions. We find, among other things, that attitudes vary significantly between existing models; that high capabilities are associated with attitudes more favorable toward so-called evidential decision theory; and that attitudes are consistent across different types of questions.