Large Language Models Outperform Humans in Fraud Detection and Resistance to Motivated Investor Pressure

📄 arXiv: 2604.20652v1 📥 PDF

作者: Nattavudh Powdthavee

分类: cs.AI, cs.HC, econ.GN

发布日期: 2026-04-22

备注: 36 pages


💡 一句话要点

大语言模型在欺诈检测中优于人类,且更能抵抗投资者压力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 欺诈检测 投资者压力 金融风险管理 投资咨询

📋 核心要点

  1. 现有欺诈检测方法易受投资者主观意愿影响,可能导致误判。
  2. 利用大语言模型进行欺诈检测,考察其在投资者压力下的表现。
  3. 实验表明,LLM在欺诈检测中优于人类,且更能抵抗投资者压力。

📝 摘要(中文)

本文研究了经过人类反馈训练的大语言模型(LLM)在面对已确信存在欺诈机会的投资者时,是否会抑制欺诈警告。作者进行了一项预注册实验,测试了七个领先的LLM在十二种投资场景(包括合法、高风险和客观欺诈机会)中的表现,结合了3360次AI咨询对话和一个包含1201名参与者的人类基准。与预测相反,有动机的投资者框架并未抑制AI欺诈警告;如果说有影响,那就是略微增加了警告。背书逆转的发生率低于千分之三。人类顾问以13-14%的基线率认可欺诈性投资,而所有LLM的这一比例为0%。在压力下,人类抑制警告的频率是AI的两到四倍。目前,AI系统在相同的咨询角色中提供的欺诈警告比普通人更一致。

🔬 方法详解

问题定义:论文旨在解决现有欺诈检测方法容易受到投资者主观意愿影响的问题,尤其是在投资者已经确信存在欺诈机会的情况下,人类顾问可能会受到压力而抑制欺诈警告。现有方法的痛点在于缺乏客观性和一致性,容易受到外部因素干扰。

核心思路:论文的核心思路是利用经过人类反馈训练的大语言模型(LLM)进行欺诈检测,并考察其在面对有动机的投资者压力时的表现。通过对比LLM和人类顾问在相同场景下的表现,评估LLM的客观性和抗干扰能力。这样设计的目的是为了验证LLM是否能够提供更一致、更可靠的欺诈警告。

技术框架:论文采用实验研究方法,构建了包含合法、高风险和客观欺诈机会的十二种投资场景。研究流程包括:首先,让LLM和人类顾问在这些场景下提供投资建议;然后,引入有动机的投资者框架,观察LLM和人类顾问是否会改变其建议;最后,对比LLM和人类顾问在不同场景下的表现,评估其欺诈检测能力和抗干扰能力。主要模块包括:场景构建模块、LLM咨询模块、人类咨询模块、压力测试模块和结果分析模块。

关键创新:论文最重要的技术创新点在于将大语言模型应用于欺诈检测领域,并考察其在面对投资者压力时的表现。与现有方法相比,LLM具有更强的客观性和一致性,能够提供更可靠的欺诈警告。此外,论文还通过实验验证了LLM在欺诈检测方面优于人类顾问。

关键设计:论文的关键设计包括:选择了七个领先的LLM进行测试;构建了包含不同风险等级的十二种投资场景;采用了3360次AI咨询对话和一个包含1201名参与者的人类基准;使用了预注册实验方法,以确保研究的科学性和可靠性。没有提及具体的参数设置、损失函数或网络结构等技术细节。

📊 实验亮点

实验结果表明,LLM在欺诈检测方面优于人类顾问。人类顾问以13-14%的基线率认可欺诈性投资,而所有LLM的这一比例为0%。在压力下,人类抑制警告的频率是AI的两到四倍。这表明LLM能够提供更一致、更可靠的欺诈警告,且更能抵抗投资者压力。

🎯 应用场景

该研究成果可应用于金融风险管理、投资咨询等领域,帮助投资者识别欺诈机会,降低投资风险。未来,可以将该方法应用于更复杂的欺诈场景,并结合其他技术手段,提高欺诈检测的准确性和效率。该研究有助于推动AI在金融领域的应用,提升金融行业的安全性和可靠性。

📄 摘要(原文)

Large language models trained on human feedback may suppress fraud warnings when investors arrive already persuaded of a fraudulent opportunity. We tested this in a preregistered experiment across seven leading LLMs and twelve investment scenarios covering legitimate, high-risk, and objectively fraudulent opportunities, combining 3,360 AI advisory conversations with a 1,201-participant human benchmark. Contrary to predictions, motivated investor framing did not suppress AI fraud warnings; if anything, it marginally increased them. Endorsement reversal occurred in fewer than 3 in 1,000 observations. Human advisors endorsed fraudulent investments at baseline rates of 13-14%, versus 0% across all LLMs, and suppressed warnings under pressure at two to four times the AI rate. AI systems currently provide more consistent fraud warnings than lay humans in an identical advisory role.