RedNote-Vibe: A Dataset for Capturing Temporal Dynamics of AI-Generated Text in Social Media

📄 arXiv: 2509.22055v1 📥 PDF

作者: Yudong Li, Yufei Sun, Yuhan Yao, Peiru Yang, Wanyue Li, Jiajun Zou, Yongfeng Huang, Linlin Shen

分类: cs.CL

发布日期: 2025-09-26

🔗 代码/项目: GITHUB


💡 一句话要点

RedNote-Vibe:一个用于捕捉社交媒体中AI生成文本时序动态的数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成文本检测 社交媒体分析 心理语言学特征 时序数据分析 用户互动分析

📋 核心要点

  1. 现有AIGT检测数据集主要关注静态检测,忽略了社交媒体中AIGT随时间演变和用户交互的动态特性。
  2. 论文提出RedNote-Vibe数据集,包含5年跨度的小红书用户互动数据,用于研究AIGT的时序动态和用户参与模式。
  3. 论文提出PLAD框架,利用心理语言学特征进行AIGT检测,并分析这些特征与社交媒体用户参与度的关系。

📝 摘要(中文)

大型语言模型(LLMs)的普及导致社交媒体平台上AI生成文本(AIGT)的广泛传播,由此产生的内容动态由用户参与驱动并随时间演变,带来了独特的挑战。然而,现有的数据集主要关注静态的AIGT检测。本文提出了RedNote-Vibe,这是第一个用于社交媒体AIGT分析的纵向(5年)数据集。该数据集来源于小红书平台,包含用户参与度指标(例如,点赞、评论)和时间戳,时间跨度从LLM出现之前到2025年7月,从而能够研究AIGT的时序动态和用户交互模式。此外,为了在社交媒体的背景下检测AIGT,本文提出了心理语言学AIGT检测框架(PLAD),这是一种利用心理语言学特征的可解释方法。实验表明,PLAD实现了卓越的检测性能,并提供了区分人类和AI生成内容的特征的见解。更重要的是,它揭示了这些语言特征与社交媒体参与度之间的复杂关系。该数据集可在https://github.com/testuser03158/RedNote-Vibe获取。

🔬 方法详解

问题定义:现有AIGT检测方法主要关注静态文本的真伪判别,忽略了社交媒体环境中AIGT内容随时间演变以及与用户互动产生的动态变化。缺乏长期、包含用户互动信息的AIGT数据集,难以深入研究AIGT在社交媒体上的传播规律和影响。

核心思路:论文的核心思路是构建一个包含时间信息和用户互动信息的AIGT数据集,并利用心理语言学特征来区分AIGT和人类生成文本,进而分析这些特征与用户互动之间的关系。通过分析AIGT内容随时间的变化趋势,以及用户对不同类型AIGT内容的反应,可以更好地理解AIGT在社交媒体上的影响。

技术框架:论文提出的PsychoLinguistic AIGT Detection Framework (PLAD) 包含以下主要模块: 1. 数据收集与标注:从社交媒体平台小红书收集数据,标注AIGT和人类生成文本。 2. 特征提取:提取文本的心理语言学特征,例如情感、认知过程、时间关注等。 3. AIGT检测:使用机器学习模型(例如,支持向量机、随机森林)基于心理语言学特征进行AIGT检测。 4. 用户互动分析:分析心理语言学特征与用户互动指标(例如,点赞、评论)之间的关系。

关键创新:论文的关键创新在于: 1. 纵向数据集:构建了第一个包含5年跨度的社交媒体AIGT纵向数据集,可以用于研究AIGT的时序动态。 2. 心理语言学特征:利用心理语言学特征进行AIGT检测,并分析这些特征与用户互动之间的关系。 3. 可解释性:PLAD框架具有较好的可解释性,可以揭示区分AIGT和人类生成文本的关键特征。

关键设计:论文的关键设计包括: 1. 数据集构建:数据集包含用户发布的内容、时间戳、用户互动指标等信息。 2. 特征选择:选择合适的心理语言学特征,例如LIWC (Linguistic Inquiry and Word Count) 词典中的特征。 3. 模型选择与训练:选择合适的机器学习模型,并使用交叉验证等方法进行模型训练和评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PLAD框架在AIGT检测方面取得了优于现有方法的性能。通过分析心理语言学特征,论文揭示了AIGT和人类生成文本在语言风格上的差异,例如AIGT更倾向于使用正式、客观的语言,而人类生成文本更倾向于使用情感化的语言。此外,实验还发现某些心理语言学特征与用户互动指标之间存在显著相关性,例如情感积极的文本更容易获得用户的点赞。

🎯 应用场景

该研究成果可应用于社交媒体平台的内容审核、虚假信息检测、舆情分析等领域。通过识别AIGT,平台可以更好地管理内容,减少虚假信息的传播,维护健康的社交媒体环境。此外,该研究还可以帮助用户识别AIGT,提高信息素养,避免受到误导。未来,该研究可以扩展到其他社交媒体平台和语言,进一步提升AIGT检测的准确性和泛化能力。

📄 摘要(原文)

The proliferation of Large Language Models (LLMs) has led to widespread AI-Generated Text (AIGT) on social media platforms, creating unique challenges where content dynamics are driven by user engagement and evolve over time. However, existing datasets mainly depict static AIGT detection. In this work, we introduce RedNote-Vibe, the first longitudinal (5-years) dataset for social media AIGT analysis. This dataset is sourced from Xiaohongshu platform, containing user engagement metrics (e.g., likes, comments) and timestamps spanning from the pre-LLM period to July 2025, which enables research into the temporal dynamics and user interaction patterns of AIGT. Furthermore, to detect AIGT in the context of social media, we propose PsychoLinguistic AIGT Detection Framework (PLAD), an interpretable approach that leverages psycholinguistic features. Our experiments show that PLAD achieves superior detection performance and provides insights into the signatures distinguishing human and AI-generated content. More importantly, it reveals the complex relationship between these linguistic features and social media engagement. The dataset is available at https://github.com/testuser03158/RedNote-Vibe.