SCRIPTMIND: Crime Script Inference and Cognitive Evaluation for LLM-based Social Engineering Scam Detection System
作者: Heedou Kim, Changsik Kim, Sanghwa Shin, Jaewoo Kang
分类: cs.AI
发布日期: 2026-01-20
备注: This paper has been accepted to the EACL 2026 Industry Track
💡 一句话要点
ScriptMind:用于LLM社交工程诈骗检测的犯罪脚本推理与认知评估框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 社交工程诈骗检测 大型语言模型 犯罪脚本推理 认知模拟评估 人机协作 欺骗检测 自然语言处理
📋 核心要点
- 传统诈骗检测方法难以应对个性化、多轮的社交工程攻击,亟需更智能的检测方案。
- ScriptMind框架通过犯罪脚本推理、数据集构建和认知模拟评估,提升LLM在诈骗检测中的认知能力。
- 实验表明,ScriptMind微调的小型LLM在多个指标上超越GPT-4o,并能有效提高用户对诈骗的认知。
📝 摘要(中文)
社交工程诈骗日益采用个性化、多轮欺骗手段,暴露了传统检测方法的局限性。虽然大型语言模型(LLM)在识别欺骗方面显示出潜力,但其认知辅助潜力仍未得到充分探索。我们提出了ScriptMind,一个基于LLM的诈骗检测集成框架,它连接了自动推理和人类认知。它包含三个组成部分:用于诈骗推理的犯罪脚本推理任务(CSIT),用于微调小型LLM的犯罪脚本感知推理数据集(CSID),以及用于评估实时认知影响的基于认知模拟的社交工程防御评估(CSED)。使用571个韩国电话诈骗案例,我们构建了22,712个结构化的诈骗者序列训练实例。实验结果表明,经过ScriptMind微调的11B小型LLM优于GPT-4o 13%,在检测准确性、假阳性降低、诈骗者话语预测和理由质量方面优于商业模型。此外,在电话诈骗模拟实验中,它显著增强并维持了用户的怀疑程度,提高了他们对诈骗的认知意识。ScriptMind代表了朝着以人为本、认知自适应的LLM诈骗防御迈出的一步。
🔬 方法详解
问题定义:当前社交工程诈骗变得越来越复杂,传统的检测方法难以有效识别。现有的方法通常无法理解诈骗的完整流程和诈骗者的意图,导致检测准确率低,容易出现漏报和误报。此外,缺乏对用户认知过程的建模,无法有效提升用户的防诈骗意识。
核心思路:ScriptMind的核心思路是将犯罪脚本的概念引入到LLM的诈骗检测中。通过构建犯罪脚本推理任务(CSIT)和犯罪脚本感知推理数据集(CSID),使LLM能够理解诈骗的流程和策略,从而提高检测的准确性和可靠性。同时,利用认知模拟评估(CSED)来评估诈骗对用户认知的影响,并提升用户的防诈骗意识。
技术框架:ScriptMind框架包含三个主要模块:1) 犯罪脚本推理任务(CSIT):用于从诈骗案例中提取和构建犯罪脚本,将诈骗行为分解为一系列步骤和角色。2) 犯罪脚本感知推理数据集(CSID):基于CSIT构建的数据集,用于微调小型LLM,使其能够理解和推理犯罪脚本。3) 认知模拟评估(CSED):用于评估LLM在实际诈骗场景中的表现,并模拟诈骗对用户认知的影响。
关键创新:ScriptMind的关键创新在于将犯罪脚本的概念与LLM相结合,使其能够进行更深入的诈骗推理。与传统的基于规则或统计的方法相比,ScriptMind能够更好地理解诈骗的上下文和意图,从而提高检测的准确性和鲁棒性。此外,认知模拟评估(CSED)的引入,使得可以评估和提升用户对诈骗的认知意识,从而实现更有效的诈骗防御。
关键设计:CSIT任务设计了特定的提示工程,引导LLM从诈骗案例中提取关键信息,构建犯罪脚本。CSID数据集包含了大量的诈骗案例和对应的犯罪脚本,用于微调小型LLM。CSED评估采用了模拟的电话诈骗场景,通过评估用户在不同阶段的怀疑程度来衡量LLM的防御效果。损失函数方面,可能采用了交叉熵损失函数来优化LLM的分类性能,并可能使用了对比学习等方法来增强LLM对不同诈骗类型的区分能力。具体网络结构未知,但推测使用了Transformer架构。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过ScriptMind微调的11B小型LLM在诈骗检测准确率上超越GPT-4o 13%,并且在假阳性降低、诈骗者话语预测和理由质量方面均优于商业模型。此外,在电话诈骗模拟实验中,ScriptMind能够显著增强并维持用户的怀疑程度,有效提升用户对诈骗的认知。
🎯 应用场景
ScriptMind框架可应用于智能反诈骗系统、安全意识培训、以及金融风控等领域。通过提升LLM的诈骗推理能力和用户认知水平,可以有效降低诈骗案件的发生率,保护用户财产安全。未来,该技术有望扩展到其他类型的网络犯罪检测与防御中,构建更安全可靠的网络环境。
📄 摘要(原文)
Social engineering scams increasingly employ personalized, multi-turn deception, exposing the limits of traditional detection methods. While Large Language Models (LLMs) show promise in identifying deception, their cognitive assistance potential remains underexplored. We propose ScriptMind, an integrated framework for LLM-based scam detection that bridges automated reasoning and human cognition. It comprises three components: the Crime Script Inference Task (CSIT) for scam reasoning, the Crime Script-Aware Inference Dataset (CSID) for fine-tuning small LLMs, and the Cognitive Simulation-based Evaluation of Social Engineering Defense (CSED) for assessing real-time cognitive impact. Using 571 Korean phone scam cases, we built 22,712 structured scammer-sequence training instances. Experimental results show that the 11B small LLM fine-tuned with ScriptMind outperformed GPT-4o by 13%, achieving superior performance over commercial models in detection accuracy, false-positive reduction, scammer utterance prediction, and rationale quality. Moreover, in phone scam simulation experiments, it significantly enhanced and sustained users' suspicion levels, improving their cognitive awareness of scams. ScriptMind represents a step toward human-centered, cognitively adaptive LLMs for scam defense.