Decoders Laugh as Loud as Encoders

📄 arXiv: 2509.04779v1 📥 PDF

作者: Eli Borodach, Raj Dandekar, Rajat Dandekar, Sreedath Panat

分类: cs.CL, cs.AI

发布日期: 2025-09-05


💡 一句话要点

解码器在幽默理解上可与编码器媲美:GPT-4o在幽默理解上达到RoBERTa水平

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幽默理解 解码器 编码器 GPT-4o RoBERTa 微调 自然语言处理

📋 核心要点

  1. 现有大型语言模型在幽默理解等细微主题上的理解程度尚不明确,缺乏有效评估方法。
  2. 通过微调解码器(GPT-4o),并将其在幽默理解任务上的表现与微调后的编码器(RoBERTa)进行比较。
  3. 实验结果表明,微调后的GPT-4o在幽默理解任务上达到了与RoBERTa相当的性能水平,F1-macro得分分别为0.85和0.86。

📝 摘要(中文)

艾伦·图灵曾梦想创造出能像人类一样用语言交流的机器人。大型语言模型(LLMs)的最新进展震惊了科学界,单个模型可以应用于各种自然语言处理(NLP)任务,其输出结果有时甚至优于人类的沟通技巧。GPT、Claude、Grok等模型在科学界留下了深刻的印记。然而,这些模型在多大程度上理解它们所产生的内容尚不清楚,尤其是在幽默这种微妙的主题上。计算机是否理解幽默的问题仍然悬而未决(在解码器中,最新检查的是GPT-2)。本文探讨了这个问题,结果表明,经过微调的解码器(GPT-4o)表现良好(平均F1-macro得分为0.85),与最佳微调编码器(RoBERTa,平均F1得分为0.86)相当。

🔬 方法详解

问题定义:论文旨在探讨大型语言模型是否真正理解它们所生成的内容,特别是像幽默这样需要细微理解的主题。现有方法难以有效评估模型对幽默的理解能力,缺乏对解码器和编码器在幽默理解能力上的直接比较。

核心思路:论文的核心思路是通过微调一个解码器模型(GPT-4o)和一个编码器模型(RoBERTa),然后在幽默理解任务上评估它们的性能,并进行直接比较。这种设计旨在揭示解码器在理解幽默方面的潜力,并挑战编码器在NLP任务中的主导地位。

技术框架:论文的技术框架主要包括以下几个步骤:1) 选择GPT-4o作为解码器模型,RoBERTa作为编码器模型。2) 使用幽默数据集对两个模型进行微调。3) 在测试集上评估两个模型的性能,使用F1-macro作为评估指标。4) 对比两个模型的性能,分析结果。

关键创新:论文的关键创新在于直接比较了微调后的解码器(GPT-4o)和编码器(RoBERTa)在幽默理解任务上的性能。以往的研究更多关注编码器在NLP任务中的表现,而忽略了解码器在理解细微主题方面的潜力。该研究表明,解码器在经过适当的微调后,可以达到与编码器相当的性能水平。

关键设计:论文的关键设计包括:1) 选择GPT-4o作为解码器,因为它具有强大的生成能力和上下文理解能力。2) 选择RoBERTa作为编码器,因为它在各种NLP任务中表现出色。3) 使用F1-macro作为评估指标,因为它能够综合考虑精确率和召回率,更全面地评估模型的性能。4) 对两个模型进行充分的微调,以确保它们能够充分学习幽默数据集中的知识。

📊 实验亮点

实验结果表明,经过微调的GPT-4o在幽默理解任务上取得了与RoBERTa相当的性能,平均F1-macro得分为0.85,而RoBERTa的平均F1得分为0.86。这一结果表明,解码器在经过适当的微调后,可以达到与编码器相当的性能水平,挑战了编码器在NLP任务中的主导地位。

🎯 应用场景

该研究成果可应用于开发更具人情味的聊天机器人、改善内容生成模型的幽默感、以及提升情感分析的准确性。通过更好地理解和生成幽默,AI系统可以更有效地与人类互动,并在娱乐、教育和客户服务等领域发挥更大的作用。未来的研究可以探索如何进一步提高AI模型对幽默的理解能力,并将其应用于更广泛的领域。

📄 摘要(原文)

From the dawn of the computer, Allen Turing dreamed of a robot that could communicate using language as a human being. The recent advances in the field of Large Language Models (LLMs) shocked the scientific community when a single model can apply for various natural language processing (NLP) tasks, while the output results are sometimes even better than most human communication skills. Models such as GPT, Claude, Grok, etc. have left their mark on the scientific community. However, it is unclear how much these models understand what they produce, especially in a nuanced theme such as humor. The question of whether computers understand humor is still open (among the decoders, the latest to be checked was GPT-2). We addressed this issue in this paper; we have showed that a fine-tuned decoder (GPT-4o) performed (Mean F1-macro score of 0.85) as well as the best fine-tuned encoder (RoBERTa with a Mean of F1-score 0.86)