Leveraging Large Language Models for Multi-Class and Multi-Label Detection of Drug Use and Overdose Symptoms on Social Media
作者: Muhammad Ahmad, Fida Ullah, Muhammad Usman, Umyh Habiba, ldar Batyrshin, Grigori Sidorov
分类: cs.CL, cs.AI, cs.SI
发布日期: 2025-04-16 (更新: 2025-07-15)
💡 一句话要点
利用大型语言模型进行社交媒体上药物滥用和过量症状的多类别和多标签检测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 药物滥用检测 社交媒体分析 自然语言处理 大型语言模型 多类别分类 多标签分类 公共卫生监测 Transformer模型
📋 核心要点
- 传统药物滥用和过量症状研究方法存在滞后性,难以捕捉社交媒体上实时信息,限制了早期干预。
- 该研究提出了一种基于大型语言模型(LLM)的AI驱动NLP框架,用于检测社交媒体上药物滥用和过量症状。
- 实验结果表明,该框架在多类别和多标签分类任务中均取得了显著的性能提升,准确率分别达到98%和97%。
📝 摘要(中文)
药物过量仍然是一个严峻的全球健康问题,通常由阿片类药物、止痛药和精神科药物的滥用所驱动。传统研究方法存在局限性,而社交媒体则提供了关于自我报告的药物使用和过量症状的实时信息。本研究提出了一个AI驱动的NLP框架,该框架在标注的社交媒体数据上进行训练,以检测常用药物和相关的过量症状。通过结合LLM和人工标注员的混合标注策略,我们应用了传统的机器学习模型、神经网络和先进的基于Transformer的模型。我们的框架在多类别分类中实现了98%的准确率,在多标签分类中实现了97%的准确率,比基线模型提高了高达8%。这些发现突出了人工智能在支持公共卫生监测和个性化干预策略方面的潜力。
🔬 方法详解
问题定义:该论文旨在解决社交媒体上药物滥用和过量症状的自动检测问题。现有方法依赖于人工监测或传统的机器学习方法,效率低且准确率有限,无法有效应对社交媒体数据量大、信息噪声多的特点。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大语义理解能力,结合人工标注数据,训练一个高性能的NLP模型,从而实现对社交媒体文本中药物滥用和过量症状的准确识别。通过混合标注策略,既利用了LLM的效率,又保证了标注质量。
技术框架:整体框架包括数据收集与清洗、混合标注(LLM辅助人工标注)、模型训练与评估三个主要阶段。首先,从社交媒体平台收集相关文本数据,并进行预处理。然后,利用LLM进行初步标注,人工标注员进行校正和补充,形成高质量的标注数据集。最后,使用标注数据训练传统的机器学习模型、神经网络和基于Transformer的模型,并进行性能评估和比较。
关键创新:该研究的关键创新在于采用了混合标注策略,充分利用了LLM的自动化能力和人工标注的准确性,降低了标注成本,提高了标注效率。此外,该研究系统地比较了多种模型在药物滥用和过量症状检测任务上的性能,为后续研究提供了参考。
关键设计:在模型选择方面,研究尝试了多种模型,包括传统的机器学习模型(如支持向量机、逻辑回归)、神经网络(如循环神经网络、卷积神经网络)以及基于Transformer的模型(如BERT、RoBERTa)。损失函数根据任务类型选择,多类别分类通常使用交叉熵损失函数,多标签分类则使用二元交叉熵损失函数。具体的参数设置和网络结构根据不同的模型进行调整和优化。
📊 实验亮点
该研究提出的AI驱动NLP框架在多类别分类中实现了98%的准确率,在多标签分类中实现了97%的准确率,相较于基线模型,性能提升高达8%。实验结果表明,该框架能够有效识别社交媒体上与药物滥用和过量症状相关的信息,具有很高的实用价值。
🎯 应用场景
该研究成果可应用于公共卫生监测,帮助卫生部门及时发现和应对药物滥用和过量事件,为高危人群提供个性化干预策略。此外,该技术还可用于社交媒体平台的内容审核,过滤有害信息,维护网络安全。未来,该技术有望扩展到其他健康风险的监测和预警。
📄 摘要(原文)
Drug overdose remains a critical global health issue, often driven by misuse of opioids, painkillers, and psychiatric medications. Traditional research methods face limitations, whereas social media offers real-time insights into self-reported substance use and overdose symptoms. This study proposes an AI-driven NLP framework trained on annotated social media data to detect commonly used drugs and associated overdose symptoms. Using a hybrid annotation strategy with LLMs and human annotators, we applied traditional ML models, neural networks, and advanced transformer-based models. Our framework achieved 98% accuracy in multi-class and 97% in multi-label classification, outperforming baseline models by up to 8%. These findings highlight the potential of AI for supporting public health surveillance and personalized intervention strategies.