A GAN and LLM-Driven Data Augmentation Framework for Dynamic Linguistic Pattern Modeling in Chinese Sarcasm Detection

📄 arXiv: 2604.08381v1 📥 PDF

作者: Wenxian Wang, Xiaohu Luo, Junfeng Hao, Xiaoming Gu, Xingshu Chen, Zhu Wang, Haizhou Wang

分类: cs.CL, cs.AI

发布日期: 2026-04-09


💡 一句话要点

提出基于GAN和LLM的数据增强框架,用于动态建模中文讽刺检测中的语言模式。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 中文讽刺检测 数据增强 生成对抗网络 大型语言模型 用户语言模式 BERT 自然语言处理

📋 核心要点

  1. 现有中文讽刺检测方法受限于数据集规模和高昂的构建成本,且忽略了用户特定语言模式的影响。
  2. 利用GAN和LLM进行数据增强,构建包含用户历史行为的讽刺评论数据集,从而动态建模用户语言模式。
  3. 扩展BERT模型,融入用户历史行为等多维信息,实验结果表明,该方法在讽刺检测任务上优于现有方法。

📝 摘要(中文)

本文提出了一种基于生成对抗网络(GAN)和大型语言模型(LLM)驱动的数据增强框架,用于动态建模用户语言模式,以增强中文讽刺检测。由于现有中文讽刺检测方法受限于数据集规模和构建成本,且主要关注文本特征,忽略了用户特定语言模式对观点和情感表达的影响。因此,本文从新浪微博收集原始数据,训练GAN,并应用基于GPT-3.5的数据增强技术,合成了一个扩展的讽刺评论数据集SinaSarc。该数据集包含目标评论、上下文信息和用户历史行为。最后,扩展了BERT架构,融入多维信息,特别是用户历史行为,使模型能够捕捉动态语言模式,揭示评论中隐含的讽刺线索。实验结果表明,该方法有效,在非讽刺和讽刺类别上分别取得了0.9138和0.9151的F1分数,优于现有最佳方法。本研究为动态建模中文讽刺检测中用户的长期语言模式提供了一个新颖的框架,为该领域的数据集构建和方法学发展做出了贡献。

🔬 方法详解

问题定义:现有中文讽刺检测方法面临数据集规模有限和构建成本高昂的问题,并且主要关注文本特征,忽略了用户历史行为所体现的动态语言模式,导致模型难以准确识别讽刺。

核心思路:利用GAN和LLM进行数据增强,生成包含用户历史行为信息的讽刺评论数据,从而扩充数据集并建模用户特定的语言模式。通过将用户历史行为融入模型,使模型能够捕捉动态的语言特征,提高讽刺检测的准确性。这样设计的目的是为了弥补现有方法在数据和特征上的不足。

技术框架:该框架主要包含三个阶段:1) 从新浪微博收集原始数据;2) 使用GAN和GPT-3.5进行数据增强,生成SinaSarc数据集,该数据集包含目标评论、上下文信息和用户历史行为;3) 扩展BERT模型,将用户历史行为等多维信息融入模型,进行讽刺检测。

关键创新:该方法的核心创新在于利用GAN和LLM进行数据增强,并结合用户历史行为信息,动态建模用户特定的语言模式。与现有方法相比,该方法不仅解决了数据集规模有限的问题,而且能够更好地捕捉讽刺表达中隐含的动态语言特征。

关键设计:GAN的具体结构和训练细节未知。GPT-3.5用于生成更真实的讽刺评论。扩展的BERT模型如何融入用户历史行为信息是关键设计,具体实现细节未知。损失函数的设计也未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该模型在非讽刺和讽刺类别上分别取得了0.9138和0.9151的F1分数,显著优于现有的state-of-the-art方法。这表明通过GAN和LLM进行数据增强,并结合用户历史行为信息,能够有效提升中文讽刺检测的性能。

🎯 应用场景

该研究成果可应用于舆情监控、社交媒体内容审核、智能客服等领域。通过准确识别讽刺言论,可以帮助分析用户情绪、过滤不良信息、提升用户体验。未来,该方法可以扩展到其他语言和社交平台,为更广泛的讽刺检测任务提供支持。

📄 摘要(原文)

Sarcasm is a rhetorical device that expresses criticism or emphasizes characteristics of certain individuals or situations through exaggeration, irony, or comparison. Existing methods for Chinese sarcasm detection are constrained by limited datasets and high construction costs, and they mainly focus on textual features, overlooking user-specific linguistic patterns that shape how opinions and emotions are expressed. This paper proposes a Generative Adversarial Network (GAN) and Large Language Model (LLM)-driven data augmentation framework to dynamically model users' linguistic patterns for enhanced Chinese sarcasm detection. First, we collect raw data from various topics on Sina Weibo. Then, we train a GAN on these data and apply a GPT-3.5 based data augmentation technique to synthesize an extended sarcastic comment dataset, named SinaSarc. This dataset contains target comments, contextual information, and user historical behavior. Finally, we extend the BERT architecture to incorporate multi-dimensional information, particularly user historical behavior, enabling the model to capture dynamic linguistic patterns and uncover implicit sarcastic cues in comments. Experimental results demonstrate the effectiveness of our proposed method. Specifically, our model achieves the highest F1-scores on both the non-sarcastic and sarcastic categories, with values of 0.9138 and 0.9151 respectively, which outperforms all existing state-of-the-art (SOTA) approaches. This study presents a novel framework for dynamically modeling users' long-term linguistic patterns in Chinese sarcasm detection, contributing to both dataset construction and methodological advancement in this field.