Generative Models, Humans, Predictive Models: Who Is Worse at High-Stakes Decision Making?

📄 arXiv: 2410.15471v2 📥 PDF

作者: Keri Mallari, Julius Adebayo, Kori Inkpen, Martin T. Wells, Albert Gordo, Sarah Tan

分类: cs.AI, cs.LG

发布日期: 2024-10-20 (更新: 2025-02-14)


💡 一句话要点

评估大型生成模型在复发预测高风险决策中的表现,结果表明其不如人类和预测模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 大型生成模型 高风险决策 复发预测 决策质量评估 偏差分析

📋 核心要点

  1. 大型生成模型被用于高风险决策,但其适用性未经充分验证,存在潜在风险。
  2. 通过对比生成模型、人类和预测模型在复发预测任务中的表现,评估生成模型的决策质量。
  3. 实验结果表明,现有大型生成模型在复发预测任务中表现不如人类和预测模型,不适合直接应用。

📝 摘要(中文)

尽管强烈反对,大型生成模型(LMs)已被用于决策任务,而这些任务以前由预测模型或人类完成。本文在复发预测这一高风险决策任务中测试了流行的LMs。研究了三个封闭和开源的LMs,不仅从准确性的角度分析LMs,还分析了它们与(不完美的、有噪声的、有时有偏差的)人类预测或现有预测模型的一致性。本文进行了实验,评估了提供不同类型的信息(包括照片等干扰信息)如何影响LM的决策。同时,本文还对旨在提高准确性或减轻LMs偏差的技术进行了压力测试,发现其中一些技术对LM决策产生了意想不到的后果。结果为当前的LMs不适合此类任务提供了额外的定量证据。

🔬 方法详解

问题定义:论文关注在高风险决策场景下,大型生成模型(LMs)的适用性问题,特别是复发预测任务。现有方法主要依赖于预测模型或人类专家,而直接使用LMs进行决策未经充分验证,可能导致不准确或有偏差的判断。现有方法的痛点在于缺乏对LMs在高风险决策场景下性能的全面评估,以及对影响LMs决策因素的深入理解。

核心思路:论文的核心思路是将LMs、人类专家和现有预测模型放在同一框架下进行比较,评估它们在复发预测任务中的准确性和一致性。通过引入不同类型的信息(包括干扰信息)来考察LMs决策的鲁棒性。同时,对旨在提高LMs性能或减轻偏差的技术进行压力测试,观察其对决策结果的潜在影响。

技术框架:论文的整体框架包括以下几个主要步骤:1) 选择多个具有代表性的LMs(包括封闭和开源模型);2) 构建复发预测数据集,包含必要的个人信息和历史记录;3) 设计实验,对比LMs、人类专家和现有预测模型在复发预测任务中的表现;4) 引入不同类型的信息(如照片)来评估LMs决策的鲁棒性;5) 对旨在提高LMs性能或减轻偏差的技术进行压力测试;6) 分析实验结果,评估LMs的适用性,并识别影响其决策的关键因素。

关键创新:论文最重要的技术创新点在于其对LMs在高风险决策场景下的全面评估方法。与以往研究主要关注LMs的生成能力不同,本文侧重于评估LMs的决策质量,并将其与人类专家和现有预测模型进行对比。此外,本文还创新性地引入了干扰信息和压力测试,以评估LMs决策的鲁棒性和可靠性。

关键设计:论文的关键设计包括:1) 选择具有代表性的LMs,覆盖不同架构和规模;2) 构建高质量的复发预测数据集,包含丰富的个人信息和历史记录;3) 设计合理的实验方案,确保可比性和可重复性;4) 采用合适的评估指标,如准确率、一致性等,全面评估LMs的性能;5) 对实验结果进行深入分析,识别影响LMs决策的关键因素。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在复发预测任务中,大型生成模型的表现不如人类专家和现有预测模型。引入干扰信息(如照片)会显著影响LMs的决策,降低其准确性。对旨在提高LMs性能或减轻偏差的技术进行压力测试发现,某些技术可能会产生意想不到的负面影响,进一步降低LMs的决策质量。这些结果表明,当前的大型生成模型不适合直接应用于高风险决策场景。

🎯 应用场景

该研究成果可应用于刑事司法、社会福利等领域,帮助决策者更好地理解和评估大型生成模型在风险评估和决策中的作用。研究结果警示人们在使用大型生成模型进行高风险决策时应谨慎,并强调需要开发更可靠、更公平的AI决策系统。未来,该研究可促进相关伦理规范和技术标准的制定。

📄 摘要(原文)

Despite strong advisory against it, large generative models (LMs) are already being used for decision making tasks that were previously done by predictive models or humans. We put popular LMs to the test in a high-stakes decision making task: recidivism prediction. Studying three closed-access and open-source LMs, we analyze the LMs not exclusively in terms of accuracy, but also in terms of agreement with (imperfect, noisy, and sometimes biased) human predictions or existing predictive models. We conduct experiments that assess how providing different types of information, including distractor information such as photos, can influence LM decisions. We also stress test techniques designed to either increase accuracy or mitigate bias in LMs, and find that some to have unintended consequences on LM decisions. Our results provide additional quantitative evidence to the wisdom that current LMs are not the right tools for these types of tasks.