SEAR: A Multimodal Dataset for Analyzing AR-LLM-Driven Social Engineering Behaviors

作者: Tianlong Yu, Chenghang Ye, Zheyu Yang, Ziyi Zhou, Cui Tang, Zui Tao, Jun Zhang, Kailong Wang, Liting Zhou, Yang Yang, Ting Bi

分类: cs.AI

发布日期: 2025-05-30

🔗 代码/项目: GITHUB

💡 一句话要点

SEAR：用于分析AR-LLM驱动的社会工程行为的多模态数据集

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 社会工程 增强现实 大型语言模型 多模态数据 对抗性攻击

📋 核心要点

现有方法难以应对利用增强现实（AR）和多模态大型语言模型（LLM）进行社会工程攻击的新兴威胁。
SEAR数据集通过模拟对抗场景，捕捉参与者的多模态交互数据，包括视觉、音频、环境背景和社交媒体资料。
实验结果表明，该数据集揭示了AR驱动的社会工程攻击在引发顺从性和劫持信任方面的惊人有效性。

📝 摘要（中文）

SEAR数据集是一种新型的多模态资源，旨在研究通过增强现实（AR）和多模态大型语言模型（LLM）精心策划的社会工程（SE）攻击的新兴威胁。该数据集在模拟对抗场景（包括会议、课程和社交活动）中，捕捉了60名参与者的180次带注释的对话。它包含同步的AR捕获的视觉/音频线索（例如，面部表情、声音），环境背景和精心策划的社交媒体资料，以及主观指标，如信任评级和易感性评估。主要发现揭示了SEAR在引发顺从性（例如，93.3％的网络钓鱼链接点击率，85％的呼叫接受率）和劫持信任（76.7％的交互后信任度激增）方面的惊人功效。该数据集支持检测AR驱动的SE攻击、设计防御框架以及理解多模态对抗操纵的研究。严格的道德保障措施，包括匿名化和IRB合规性，确保负责任的使用。SEAR数据集可在https://github.com/INSLabCN/SEAR-Dataset上找到。

🔬 方法详解

问题定义：论文旨在解决如何有效检测和防御利用增强现实（AR）和多模态大型语言模型（LLM）驱动的社会工程（SE）攻击的问题。现有方法缺乏针对此类新型攻击场景的数据集和分析工具，难以评估其威胁程度和设计有效的防御策略。

核心思路：论文的核心思路是构建一个包含丰富多模态信息的对抗性交互数据集，通过模拟真实的社会工程攻击场景，捕捉攻击者和受害者之间的交互过程，从而为研究人员提供分析和理解此类攻击行为的基础。通过分析这些数据，可以识别攻击的关键特征，并开发相应的检测和防御机制。

技术框架：SEAR数据集的构建流程主要包括以下几个阶段：1) 设计模拟的对抗场景，包括会议、课程和社交活动等；2) 招募参与者，并分配攻击者和受害者的角色；3) 使用AR设备捕捉参与者的视觉和音频信息，同时记录环境背景和社交媒体资料；4) 对收集到的数据进行标注，包括对话内容、面部表情、声音特征、信任评级和易感性评估等；5) 对数据集进行伦理审查和匿名化处理，确保参与者的隐私。

关键创新：该论文的关键创新在于构建了一个专门针对AR-LLM驱动的社会工程攻击的多模态数据集。与现有的社会工程数据集相比，SEAR数据集具有以下特点：1) 包含AR捕获的视觉和音频信息，能够更全面地反映攻击者的行为特征；2) 模拟了真实的对抗场景，更贴近实际应用；3) 提供了丰富的标注信息，方便研究人员进行深入分析。

关键设计：在数据集构建过程中，论文采用了以下关键设计：1) 选择了具有代表性的对抗场景，以覆盖不同的攻击类型；2) 招募了不同背景的参与者，以增加数据集的多样性；3) 使用了高质量的AR设备，以保证数据的准确性；4) 采用了严格的伦理审查流程，以保护参与者的隐私。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SEAR数据集揭示了AR驱动的社会工程攻击的惊人有效性，例如，93.3％的参与者点击了网络钓鱼链接，85％的参与者接受了来电，76.7％的参与者在交互后信任度激增。这些数据表明，利用AR和LLM的社会工程攻击具有很高的成功率，需要引起高度重视。

🎯 应用场景

该研究成果可应用于网络安全教育、社会工程攻击检测与防御系统开发、以及人机交互安全评估等领域。通过分析SEAR数据集，可以提高人们对新型社会工程攻击的防范意识，开发更有效的防御工具，并促进更安全的人机交互环境的构建。未来，该数据集可以扩展到其他类型的多模态攻击场景，为更广泛的安全研究提供支持。

📄 摘要（原文）

The SEAR Dataset is a novel multimodal resource designed to study the emerging threat of social engineering (SE) attacks orchestrated through augmented reality (AR) and multimodal large language models (LLMs). This dataset captures 180 annotated conversations across 60 participants in simulated adversarial scenarios, including meetings, classes and networking events. It comprises synchronized AR-captured visual/audio cues (e.g., facial expressions, vocal tones), environmental context, and curated social media profiles, alongside subjective metrics such as trust ratings and susceptibility assessments. Key findings reveal SEAR's alarming efficacy in eliciting compliance (e.g., 93.3% phishing link clicks, 85% call acceptance) and hijacking trust (76.7% post-interaction trust surge). The dataset supports research in detecting AR-driven SE attacks, designing defensive frameworks, and understanding multimodal adversarial manipulation. Rigorous ethical safeguards, including anonymization and IRB compliance, ensure responsible use. The SEAR dataset is available at https://github.com/INSLabCN/SEAR-Dataset.

SEAR: A Multimodal Dataset for Analyzing AR-LLM-Driven Social Engineering Behaviors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理