When Large Language Models Do Not Work: Online Incivility Prediction through Graph Neural Networks
作者: Zihan Chen, Lanyu Yu
分类: cs.CL, cs.AI, cs.SI
发布日期: 2025-12-08 (更新: 2026-02-01)
备注: 10 pages
💡 一句话要点
提出基于图神经网络的在线不文明行为预测方法,优于大型语言模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图神经网络 在线不文明行为检测 自然语言处理 社交网络分析 文本分类
📋 核心要点
- 现有在线不文明行为检测方法在准确性和效率上存在局限性,难以有效遏制网络暴力。
- 利用图神经网络,将用户评论建模为节点,评论间相似性作为边,同时学习文本内容和关系结构。
- 实验表明,该方法在多个指标上优于现有大型语言模型,且推理成本更低。
📝 摘要(中文)
在线不文明行为已成为数字社区中普遍且持续存在的问题,给用户带来巨大的社会和心理负担。尽管许多平台试图通过人工审核和自动检测来遏制不文明行为,但现有方法的性能在准确性和效率方面仍然有限。为了应对这一挑战,我们提出了一种图神经网络(GNN)框架,用于检测英语维基百科社区中的三种不文明行为(即,毒性言论、攻击性和人身攻击)。我们的模型将每个用户评论表示为一个节点,评论之间的文本相似性定义为边,从而使网络能够共同学习评论的语言内容和关系结构。我们还引入了一种动态调整的注意力机制,该机制自适应地平衡信息聚合期间的节点和拓扑特征。经验评估表明,我们提出的架构在多个指标上优于12个最先进的大型语言模型(LLM),同时需要显著降低的推理成本。这些发现突出了结构化上下文在检测在线不文明行为中的关键作用,并解决了纯文本LLM范式在行为预测中的局限性。所有数据集和比较输出将在我们的存储库中公开提供,以支持进一步的研究和可重复性。
🔬 方法详解
问题定义:论文旨在解决在线社区中不文明行为检测的问题,具体是识别英语维基百科中的毒性言论、攻击性和人身攻击。现有方法,特别是基于大型语言模型的方法,虽然在文本理解方面表现出色,但在捕捉评论之间的关系结构和上下文信息方面存在不足,导致检测准确率受限。
核心思路:论文的核心思路是将在线评论建模成图结构,利用图神经网络同时学习评论的文本内容和评论之间的关系。通过考虑评论之间的相似性,模型可以更好地理解评论的上下文,从而更准确地识别不文明行为。
技术框架:该框架主要包含以下几个步骤:1) 将每个用户评论表示为一个节点。2) 基于评论之间的文本相似性定义节点之间的边。3) 使用图神经网络在图结构上进行信息聚合,学习每个节点的表示。4) 利用动态调整的注意力机制,自适应地平衡节点特征和拓扑特征。5) 使用学习到的节点表示进行不文明行为的分类。
关键创新:该论文的关键创新在于利用图神经网络显式地建模了评论之间的关系结构,并引入了动态调整的注意力机制来平衡节点特征和拓扑特征的重要性。这与传统的文本分类方法,尤其是基于大型语言模型的方法,只关注文本内容而忽略关系结构的做法有本质区别。
关键设计:论文使用了基于文本相似度的边构建方法,例如使用TF-IDF或BERT embeddings计算评论之间的相似度。动态调整的注意力机制可能涉及一个可学习的权重,用于控制节点特征和拓扑特征在信息聚合中的贡献。损失函数通常是交叉熵损失,用于训练分类器。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在检测在线不文明行为方面优于12个最先进的大型语言模型。具体而言,该方法在准确率、召回率和F1值等指标上均取得了显著提升,同时推理成本显著降低。这些结果表明,利用图神经网络建模评论之间的关系结构对于提高在线不文明行为检测的性能至关重要。
🎯 应用场景
该研究成果可应用于各种在线社交平台、论坛和评论区,用于自动检测和过滤不文明言论,从而改善网络环境,减轻人工审核的负担,并为用户提供更健康、更友好的交流空间。未来,该方法可以扩展到其他语言和文化背景,并与其他技术(如强化学习)结合,实现更智能化的内容审核。
📄 摘要(原文)
Online incivility has emerged as a widespread and persistent problem in digital communities, imposing substantial social and psychological burdens on users. Although many platforms attempt to curb incivility through moderation and automated detection, the performance of existing approaches often remains limited in both accuracy and efficiency. To address this challenge, we propose a Graph Neural Network (GNN) framework for detecting three types of uncivil behavior (i.e., toxicity, aggression, and personal attacks) within the English Wikipedia community. Our model represents each user comment as a node, with textual similarity between comments defining the edges, allowing the network to jointly learn from both linguistic content and relational structures among comments. We also introduce a dynamically adjusted attention mechanism that adaptively balances nodal and topological features during information aggregation. Empirical evaluations demonstrate that our proposed architecture outperforms 12 state-of-the-art Large Language Models (LLMs) across multiple metrics while requiring significantly lower inference cost. These findings highlight the crucial role of structural context in detecting online incivility and address the limitations of text-only LLM paradigms in behavioral prediction. All datasets and comparative outputs will be publicly available in our repository to support further research and reproducibility.