A dataset of questions on decision-theoretic reasoning in Newcomb-like problems

作者: Caspar Oesterheld, Emery Cooper, Miles Kodama, Linh Chi Nguyen, Ethan Perez

分类: cs.CL, cs.AI

发布日期: 2024-11-15 (更新: 2025-06-16)

备注: 48 pages, 15 figures; code and data at https://github.com/casparoe/newcomblike_questions_dataset

💡 一句话要点

构建Newcomb类问题决策理论推理数据集，评估LLM的合作能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 决策理论 Newcomb问题 大型语言模型 智能体交互 数据集 推理能力 合作博弈

📋 核心要点

现有LLM在模拟智能体交互时，缺乏对Newcomb类问题的有效推理能力，限制了智能体间的合作。
构建包含能力和态度问题的Newcomb类问题数据集，用于评估和提升LLM的决策理论推理能力。
实验表明，不同LLM在态度上存在显著差异，且能力强的模型更倾向于证据决策理论。

📝 摘要（中文）

本文介绍了一个关于Newcomb类问题决策理论的自然语言问题数据集。Newcomb类问题包括智能体与类似智能体交互的决策问题，因此需要推理其他智能体可能以类似方式推理的事实。评估LLM对Newcomb类问题的推理能力非常重要，因为基于基础模型的智能体之间的交互通常类似于Newcomb问题。对Newcomb类问题进行推理的某些方法可以促进模型之间更好的合作。该数据集包含能力问题（即具有唯一、无争议正确答案的问题）和态度问题（即决策理论家会存在分歧的问题）。我们使用该数据集来研究现有模型（OpenAI、Anthropic、Meta、GDM、Reka等公司的不同模型）中决策理论的能力和表达的态度及其相互作用，以及在简单提示干预下的模型。我们发现，不同模型之间的态度差异显著；高能力与更有利于所谓证据决策理论的态度相关；并且态度在不同类型的问题中是一致的。

🔬 方法详解

问题定义：论文旨在解决LLM在Newcomb类问题上的决策推理能力不足的问题。现有方法缺乏对智能体间相互影响的有效建模，导致在类似博弈场景下无法做出最优决策，阻碍了智能体间的合作。

核心思路：论文的核心思路是通过构建一个包含能力问题和态度问题的Newcomb类问题数据集，来评估和提升LLM的决策推理能力。通过分析LLM在不同问题上的表现，揭示其决策偏好和推理缺陷，从而指导模型改进。

技术框架：该研究主要围绕数据集的构建和LLM的评估展开。数据集包含自然语言形式的Newcomb类问题，分为能力问题（有明确正确答案）和态度问题（涉及决策理论争议）。研究者使用该数据集对多个LLM进行评估，并分析其在不同问题上的表现。此外，还尝试了基于提示的干预方法，以观察其对模型决策的影响。

关键创新：该研究的关键创新在于构建了一个专门用于评估LLM在Newcomb类问题上决策推理能力的数据集。该数据集不仅包含客观的能力问题，还包含主观的态度问题，能够更全面地评估LLM的决策偏好和推理能力。

关键设计：数据集的设计考虑了Newcomb类问题的特点，问题设计涵盖了不同的场景和决策情境。能力问题旨在评估LLM的逻辑推理能力，而态度问题则旨在揭示LLM的决策偏好和价值观。研究者还设计了不同的提示策略，以观察其对模型决策的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，不同LLM在Newcomb类问题上的态度存在显著差异，表明不同模型具有不同的决策偏好。此外，研究发现，能力更强的模型更倾向于证据决策理论，这表明逻辑推理能力与特定的决策偏好之间存在关联。该研究还发现，LLM在不同类型的问题上表现出一致的态度。

🎯 应用场景

该研究成果可应用于开发更智能、更具合作性的AI智能体。通过提升LLM在Newcomb类问题上的决策推理能力，可以促进智能体在复杂环境下的协作，例如在自动驾驶、金融交易、供应链管理等领域，实现更高效、更可靠的智能决策。

📄 摘要（原文）

We introduce a dataset of natural-language questions in the decision theory of so-called Newcomb-like problems. Newcomb-like problems include, for instance, decision problems in which an agent interacts with a similar other agent, and thus has to reason about the fact that the other agent will likely reason in similar ways. Evaluating LLM reasoning about Newcomb-like problems is important because interactions between foundation-model-based agents will often be Newcomb-like. Some ways of reasoning about Newcomb-like problems may allow for greater cooperation between models. Our dataset contains both capabilities questions (i.e., questions with a unique, uncontroversially correct answer) and attitude questions (i.e., questions about which decision theorists would disagree). We use our dataset for an investigation of decision-theoretical capabilities and expressed attitudes and their interplay in existing models (different models by OpenAI, Anthropic, Meta, GDM, Reka, etc.), as well as models under simple prompt-based interventions. We find, among other things, that attitudes vary significantly between existing models; that high capabilities are associated with attitudes more favorable toward so-called evidential decision theory; and that attitudes are consistent across different types of questions.

A dataset of questions on decision-theoretic reasoning in Newcomb-like problems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理