Large language models can disambiguate opioid slang on social media
作者: Kristy A. Carpenter, Issah A. Samori, Mathew V. Kiang, Keith Humphreys, Anna Lembke, Johannes C. Eichstaedt, Russ B. Altman
分类: cs.CL
发布日期: 2026-03-11
💡 一句话要点
利用大型语言模型消除社交媒体上阿片类药物俚语的歧义
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 阿片类药物 社交媒体分析 自然语言处理 文本分类
📋 核心要点
- 现有方法依赖于阿片类药物相关术语词典,但俚语存在歧义,导致识别准确率低。
- 利用大型语言模型的文本推理能力,在不同设置下对阿片类药物俚语进行消歧。
- 实验结果表明,LLM在各种任务中均优于传统词典方法,显著提高了识别准确率和召回率。
📝 摘要(中文)
社交媒体文本在监测阿片类药物过量危机趋势方面显示出潜力。然而,绝大多数社交媒体文本与阿片类药物无关。在利用社交媒体文本监测阿片类药物过量危机时,一种常见的策略是使用阿片类药物相关术语的词典作为纳入标准。但是,许多阿片类药物的俚语,如“smack”或“blues”,具有常见的非阿片类药物含义,从而产生歧义。大型语言模型(LLM)的先进文本推理能力为大规模消除这些俚语的歧义提供了机会。我们提出了三个任务来评估四个最先进的LLM(GPT-4、GPT-5、Gemini 2.5 Pro和Claude Sonnet 4.5):基于词典的设置,其中LLM必须消除给定帖子上下文中特定术语的歧义;无词典设置,其中LLM必须在没有词典的情况下从上下文中识别与阿片类药物相关的帖子;以及新兴俚语设置,其中LLM必须识别带有模拟新俚语术语的与阿片类药物相关的帖子。所有四个LLM在所有任务中均表现出色。在基于词典的设置的两个子任务中,LLM的F1分数(“fenty”子任务:0.824-0.972;“smack”子任务:0.540-0.862)远远超过了最佳词典策略(分别为0.126和0.009)。在无词典任务中,LLM的F1分数(0.544-0.769)超过了词典(0.080-0.540),并且LLM表现出一致的更高召回率。在新兴俚语方面,所有LLM的准确率(平均值:0.784)、F1分数(平均值:0.712)、精确率(平均值:0.981)和召回率(平均值:0.587)均高于评估的两个词典。我们的结果表明,LLM可用于识别低流行度主题的相关内容,包括但不限于阿片类药物参考,从而增强提供给下游分析和预测模型的数据。
🔬 方法详解
问题定义:论文旨在解决社交媒体文本中阿片类药物相关内容的识别问题,特别是当使用包含歧义俚语的词典时,传统方法的准确率会显著下降。现有方法难以区分俚语在不同语境下的含义,导致大量误报和漏报。
核心思路:论文的核心思路是利用大型语言模型(LLM)强大的上下文理解和推理能力,对包含歧义俚语的社交媒体文本进行消歧。LLM能够根据上下文判断俚语是否与阿片类药物相关,从而提高识别准确率。
技术框架:论文设计了三个任务来评估LLM的性能:1) 基于词典的设置,LLM需要判断给定术语在特定帖子中是否与阿片类药物相关;2) 无词典设置,LLM需要在没有词典的情况下识别与阿片类药物相关的帖子;3) 新兴俚语设置,LLM需要识别包含模拟的新俚语的与阿片类药物相关的帖子。
关键创新:该研究的关键创新在于将LLM应用于阿片类药物相关内容的识别,并验证了其在处理歧义俚语方面的有效性。与传统基于词典的方法相比,LLM能够更好地理解上下文,从而提高识别准确率和召回率。
关键设计:论文使用了四个最先进的LLM(GPT-4、GPT-5、Gemini 2.5 Pro和Claude Sonnet 4.5)进行评估。在基于词典的设置中,使用了“fenty”和“smack”两个具有歧义的俚语。评估指标包括准确率、精确率、召回率和F1分数。对于新兴俚语,通过模拟生成新的俚语术语,并评估LLM的识别能力。
📊 实验亮点
实验结果表明,LLM在所有三个任务中均表现出色,显著优于传统的基于词典的方法。在基于词典的设置中,LLM的F1分数远超词典策略(“fenty”子任务:0.824-0.972 vs 0.126;“smack”子任务:0.540-0.862 vs 0.009)。在无词典任务中,LLM的F1分数(0.544-0.769)也超过了词典(0.080-0.540),并且LLM表现出更高的召回率。
🎯 应用场景
该研究成果可应用于公共卫生领域,用于监测社交媒体上阿片类药物滥用趋势,及时发现并干预潜在的药物过量事件。此外,该方法还可以扩展到其他低流行度主题的识别,例如疾病监测、网络欺诈检测等,具有广泛的应用前景。
📄 摘要(原文)
Social media text shows promise for monitoring trends in the opioid overdose crisis; however, the overwhelming majority of social media text is unrelated to opioids. When leveraging social media text to monitor trends in the ongoing opioid overdose crisis, a common strategy for identifying relevant content is to use a lexicon of opioid-related terms as inclusion criteria. However, many slang terms for opioids, such as "smack" or "blues," have common non-opioid meanings, making them ambiguous. The advanced textual reasoning capability of large language models (LLMs) presents an opportunity to disambiguate these slang terms at scale. We present three tasks on which to evaluate four state-of-the-art LLMs (GPT-4, GPT-5, Gemini 2.5 Pro, and Claude Sonnet 4.5): a lexicon-based setting, in which the LLM must disambiguate a specific term within the context of a given post; a lexicon-free setting, in which the LLM must identify opioid-related posts from context without a lexicon; and an emergent slang setting, in which the LLM must identify opioid-related posts with simulated new slang terms. All four LLMs showed excellent performance across all tasks. In both subtasks of the lexicon-based setting, LLM F1 scores ("fenty" subtask: 0.824-0.972; "smack" subtask: 0.540-0.862) far exceeded those of the best lexicon strategy (0.126 and 0.009, respectively). In the lexicon-free task, LLM F1 scores (0.544-0.769) surpassed those of lexicons (0.080-0.540), and LLMs demonstrated uniformly higher recall. On emergent slang, all LLMs had higher accuracy (average: 0.784), F1 score (average: 0.712), precision (average: 0.981), and recall (average: 0.587) than the two lexicons assessed. Our results show that LLMs can be used to identify relevant content for low-prevalence topics, including but not limited to opioid references, enhancing data provided to downstream analyses and predictive models.