Inducing lexicons of in-group language with socio-temporal context

📄 arXiv: 2409.19257v3 📥 PDF

作者: Christine de Kock

分类: cs.CL, cs.SI

发布日期: 2024-09-28 (更新: 2025-06-05)

备注: Accepted to ACL 2025


💡 一句话要点

提出一种结合社会时间上下文的内群体语言词典生成方法。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 内群体语言 词典生成 社会时间上下文 动态嵌入 在线社群

📋 核心要点

  1. 现有词典生成方法忽略了内群体语言的动态演变和社会结构。
  2. 该方法利用动态词嵌入和用户嵌入,结合社会时间上下文生成词典。
  3. 实验表明,该方法优于现有方法,并生成了新的“男性圈”语言词典。

📝 摘要(中文)

内群体语言是群体动态的重要标志。本文提出了一种新颖的内群体语言词典生成方法,该方法结合了其社会时间上下文。现有的词典生成方法无法捕捉内群体语言的演变性质,也无法捕捉社群的社会结构。通过使用在在线反女性社群的对话中训练的动态词和用户嵌入,我们的方法优于先前的词典生成方法。我们为词典生成任务开发了一个测试集,并创建了一个由人工专家验证的“男性圈”语言的新词典,该词典量化了每个术语在给定时间点与特定子社群的相关性。最后,我们展示了关于内群体语言的新见解,这些见解说明了这种方法的实用性。

🔬 方法详解

问题定义:论文旨在解决内群体语言词典自动生成的问题。现有方法的痛点在于无法有效捕捉内群体语言随时间和社群结构的变化而演变的特性,导致生成的词典缺乏时效性和社群针对性。

核心思路:论文的核心思路是将社会时间上下文信息融入到词典生成过程中。通过学习动态的词嵌入和用户嵌入,模型能够捕捉词语在不同时间和不同社群中的语义变化,从而更准确地识别内群体语言。

技术框架:该方法主要包含以下几个阶段:1) 数据收集:收集来自在线社群的对话数据;2) 动态嵌入训练:利用对话数据训练动态词嵌入和用户嵌入,捕捉词语和用户在不同时间点的语义表示;3) 词典生成:基于动态嵌入,计算词语与特定社群在特定时间点的相关性,生成内群体语言词典;4) 词典验证:通过人工专家对生成的词典进行验证和评估。

关键创新:该方法最重要的创新点在于将社会时间上下文信息融入到词典生成过程中,从而能够捕捉内群体语言的动态演变和社会结构特性。与现有方法相比,该方法生成的词典更具时效性和社群针对性。

关键设计:论文使用了动态词嵌入模型和用户嵌入模型,具体模型细节未知。关键在于如何设计损失函数,使得模型能够有效学习词语和用户在不同时间点的语义表示。此外,如何定义词语与社群的相关性,以及如何进行词典验证,也是关键的设计环节。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该论文开发了一个用于词典生成任务的测试集,并构建了一个新的“男性圈”语言词典,该词典由人工专家验证。实验结果表明,该方法优于现有的词典生成方法,能够更准确地识别内群体语言,并捕捉其动态演变和社会结构特性。具体的性能提升数据未知。

🎯 应用场景

该研究成果可应用于在线社群分析、舆情监控、网络安全等领域。通过自动识别内群体语言,可以更好地理解社群动态、预测潜在风险,并采取相应的干预措施。此外,该方法还可以用于构建特定领域的专业词典,例如医学、法律等。

📄 摘要(原文)

In-group language is an important signifier of group dynamics. This paper proposes a novel method for inducing lexicons of in-group language, which incorporates its socio-temporal context. Existing methods for lexicon induction do not capture the evolving nature of in-group language, nor the social structure of the community. Using dynamic word and user embeddings trained on conversations from online anti-women communities, our approach outperforms prior methods for lexicon induction. We develop a test set for the task of lexicon induction and a new lexicon of manosphere language, validated by human experts, which quantifies the relevance of each term to a specific sub-community at a given point in time. Finally, we present novel insights on in-group language which illustrate the utility of this approach.