IOHunter: Graph Foundation Model to Uncover Online Information Operations

📄 arXiv: 2412.14663v2 📥 PDF

作者: Marco Minici, Luca Luceri, Francesco Fabbri, Emilio Ferrara

分类: cs.SI, cs.AI, cs.LG

发布日期: 2024-12-19 (更新: 2025-03-03)

备注: Accepted at AAAI 2025


💡 一句话要点

IOHunter:图神经网络基础模型揭示在线信息操纵行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 信息操纵检测 图神经网络 社交媒体分析 语言模型 异常检测

📋 核心要点

  1. 社交媒体易受恶意行为者利用,他们通过信息操纵(IO)来影响公众舆论,现有方法难以有效识别这些IO驱动者。
  2. IOHunter框架结合了语言模型和图神经网络的优势,旨在提高在不同监督程度和跨信息操纵活动中的泛化能力。
  3. 实验结果表明,IOHunter在多个源自不同国家的IO数据集中取得了最先进的性能,显著优于现有方法。

📝 摘要(中文)

社交媒体平台已成为重要的公共讨论空间,充当着现代广场,各种声音在此影响着社会叙事。然而,其开放性也使其容易受到恶意行为者的利用,包括国家支持的实体,他们可以进行信息操纵(IO)以影响公众舆论。错误信息、虚假新闻和误导性声明的传播威胁着民主进程和社会凝聚力,因此开发及时检测虚假活动的方法以保护在线讨论的完整性至关重要。在这项工作中,我们介绍了一种旨在识别策划信息操纵的用户(即IO驱动者)的方法,该方法适用于各种影响力活动。我们的框架名为IOHunter,利用语言模型和图神经网络的综合优势,以提高在监督、弱监督和跨IO环境中的泛化能力。我们的方法在源自六个国家的多个IO集合中实现了最先进的性能,显著超越了现有方法。这项研究标志着朝着开发专门为社交媒体平台上IO检测任务量身定制的图基础模型迈出了一步。

🔬 方法详解

问题定义:论文旨在解决社交媒体平台上信息操纵活动中,识别幕后操纵者(IO drivers)的问题。现有方法在泛化能力上存在不足,难以适应不同类型的信息操纵活动,并且在弱监督或跨信息操纵活动场景下表现不佳。

核心思路:论文的核心思路是利用图神经网络(GNN)学习用户之间的关系,并结合语言模型提取用户发布内容的语义信息,从而更准确地识别IO驱动者。通过构建图结构,可以捕捉用户之间的交互模式,例如转发、提及等,这些模式往往能揭示信息操纵的组织结构。

技术框架:IOHunter框架主要包含以下几个阶段:1) 数据预处理:收集社交媒体用户及其发布的内容,构建用户之间的关系图。2) 特征提取:使用语言模型(例如BERT)提取用户发布内容的语义特征,并结合用户的元数据(例如注册时间、关注者数量等)作为节点特征。3) 图神经网络建模:使用GNN学习节点表示,捕捉用户之间的关系和内容信息。4) 分类:使用分类器(例如Softmax)预测用户是否为IO驱动者。

关键创新:论文的关键创新在于提出了一个基于图神经网络的基础模型,专门用于识别社交媒体平台上的信息操纵行为。该模型能够有效地结合用户之间的关系和内容信息,提高在不同类型的信息操纵活动中的泛化能力。此外,该模型还可以在弱监督或跨信息操纵活动场景下进行训练,进一步提高了其适用性。

关键设计:论文中使用了Graph Attention Network (GAT) 作为GNN模型,允许模型学习不同邻居节点的重要性。损失函数使用了交叉熵损失,用于训练分类器。在训练过程中,使用了dropout和权重衰减等正则化技术,以防止过拟合。具体参数设置(例如GNN的层数、学习率等)通过实验进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

IOHunter在多个信息操纵数据集上取得了最先进的性能,显著超越了现有方法。具体而言,在跨信息操纵活动场景下,IOHunter的性能提升尤为明显,表明其具有良好的泛化能力。实验结果还表明,结合语言模型和图神经网络能够有效地提高IO驱动者的识别准确率。

🎯 应用场景

该研究成果可应用于社交媒体平台的内容审核和安全防护,帮助平台及时发现和阻止信息操纵活动,维护在线讨论的健康环境。此外,该技术还可以用于分析舆情趋势,识别潜在的社会风险,为政府和企业提供决策支持。未来,该研究可以扩展到其他类型的在线平台,例如新闻网站、论坛等。

📄 摘要(原文)

Social media platforms have become vital spaces for public discourse, serving as modern agoràs where a wide range of voices influence societal narratives. However, their open nature also makes them vulnerable to exploitation by malicious actors, including state-sponsored entities, who can conduct information operations (IOs) to manipulate public opinion. The spread of misinformation, false news, and misleading claims threatens democratic processes and societal cohesion, making it crucial to develop methods for the timely detection of inauthentic activity to protect the integrity of online discourse. In this work, we introduce a methodology designed to identify users orchestrating information operations, a.k.a. IO drivers, across various influence campaigns. Our framework, named IOHunter, leverages the combined strengths of Language Models and Graph Neural Networks to improve generalization in supervised, scarcely-supervised, and cross-IO contexts. Our approach achieves state-of-the-art performance across multiple sets of IOs originating from six countries, significantly surpassing existing approaches. This research marks a step toward developing Graph Foundation Models specifically tailored for the task of IO detection on social media platforms.