Small Wins Big: Comparing Large Language Models and Domain Fine-Tuned Models for Sarcasm Detection in Code-Mixed Hinglish Text

📄 arXiv: 2602.21933v1 📥 PDF

作者: Bitan Majumder, Anirban Sen

分类: cs.CL

发布日期: 2026-02-25


💡 一句话要点

在Hinglish混合语境下,领域微调DistilBERT胜过大型语言模型,用于反讽检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 反讽检测 Hinglish 混合语 领域微调 DistilBERT 大型语言模型 低资源语言

📋 核心要点

  1. 多语言和混合语境下的反讽检测因语言结构复杂、表达非正式以及资源稀缺而极具挑战。
  2. 该研究采用领域自适应微调策略,利用少量LLM生成的混合语料数据,提升小型Transformer模型在反讽检测中的性能。
  3. 实验结果表明,微调后的DistilBERT模型在Hinglish混合语境下反讽检测任务中,超越了多个大型语言模型。

📝 摘要(中文)

本研究探讨了在多语言和混合语境下,反讽检测对自然语言处理模型的挑战,尤其是在结构变异、非正式表达和低资源语言可用性方面。研究比较了四个大型语言模型(Llama 3.1、Mistral、Gemma 3 和 Phi-4)与一个针对 Hinglish 混合语境进行微调的 DistilBERT 模型在反讽检测任务上的表现。结果表明,经过序列微调的较小模型 DistilBERT 实现了 84% 的最高总体准确率,优于所有大型语言模型在零样本和少样本设置下的表现,并且仅使用了最少量的由大型语言模型生成的混合语料数据进行微调。这些发现表明,在低资源和数据稀缺的环境中,对较小的基于 Transformer 的模型进行领域自适应微调可以显著提高反讽检测的性能,优于通用大型语言模型的推理。

🔬 方法详解

问题定义:论文旨在解决在Hinglish(印地语-英语混合语)文本中进行反讽检测的问题。现有方法,特别是直接使用大型语言模型(LLMs)的方法,在处理这种混合语境时表现不佳,因为LLMs通常在通用数据集上训练,缺乏对特定领域(如Hinglish)的理解和适应能力。此外,Hinglish是一种低资源语言,缺乏大规模标注数据,使得训练有效的反讽检测模型更具挑战性。

核心思路:论文的核心思路是利用领域自适应微调,即首先使用少量由LLM生成的Hinglish混合语料数据对一个较小的Transformer模型(DistilBERT)进行微调。这种方法旨在使模型能够更好地理解和处理Hinglish文本中的反讽表达。选择DistilBERT是因为它相对较小,计算成本较低,并且可以通过微调快速适应特定任务。

技术框架:整体框架包括以下几个步骤:1) 使用LLM生成少量的Hinglish混合语料数据;2) 使用生成的数据对DistilBERT模型进行微调;3) 在Hinglish反讽检测数据集上评估微调后的DistilBERT模型以及其他LLMs(Llama 3.1、Mistral、Gemma 3 和 Phi-4)的性能。评估指标包括准确率等。

关键创新:该研究的关键创新在于证明了在低资源和数据稀缺的环境中,领域自适应微调较小的Transformer模型可以显著提高反讽检测的性能,优于直接使用大型语言模型。这表明,针对特定领域进行微调可以有效地弥补LLMs在通用性方面的不足。

关键设计:论文的关键设计包括:1) 使用LLM生成高质量的Hinglish混合语料数据,用于微调DistilBERT模型;2) 选择DistilBERT作为基础模型,因为它具有较小的模型尺寸和较高的效率;3) 采用序列微调策略,逐步优化模型在Hinglish反讽检测任务上的性能;4) 仔细评估和比较不同模型的性能,以验证领域自适应微调的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,经过领域微调的DistilBERT模型在Hinglish反讽检测任务中取得了84%的总体准确率,显著优于所有参与比较的大型语言模型(Llama 3.1、Mistral、Gemma 3 和 Phi-4)在零样本和少样本设置下的表现。这一结果突显了领域自适应微调在低资源语言环境下的有效性。

🎯 应用场景

该研究成果可应用于社交媒体情感分析、在线评论挖掘、客户服务机器人等领域,帮助更准确地理解用户意图和情感,尤其是在使用混合语言表达的场景下。通过提高反讽检测的准确性,可以减少误解,提升沟通效率,并为企业提供更有价值的用户反馈。

📄 摘要(原文)

Sarcasm detection in multilingual and code-mixed environments remains a challenging task for natural language processing models due to structural variations, informal expressions, and low-resource linguistic availability. This study compares four large language models, Llama 3.1, Mistral, Gemma 3, and Phi-4, with a fine-tuned DistilBERT model for sarcasm detection in code-mixed Hinglish text. The results indicate that the smaller, sequentially fine-tuned DistilBERT model achieved the highest overall accuracy of 84%, outperforming all of the LLMs in zero and few-shot set ups, using minimal LLM generated code-mixed data used for fine-tuning. These findings indicate that domain-adaptive fine-tuning of smaller transformer based models may significantly improve sarcasm detection over general LLM inference, in low-resource and data scarce settings.