How do Language Models Generate Slang: A Systematic Comparison between Human and Machine-Generated Slang Usages
作者: Siyang Wu, Zhewei Sun
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-09-19
💡 一句话要点
系统比较人类与机器生成的俚语使用方式
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自然语言处理 大型语言模型 俚语生成 机器学习 语言理解
📋 核心要点
- 现有的自然语言处理系统在理解和生成俚语时面临显著挑战,尤其是大型语言模型的可靠性和通用性存在不足。
- 本文提出了一种系统比较框架,分析人类与机器生成的俚语在特征、创造性和信息性方面的差异。
- 通过对比人类俚语和GPT-4o、Llama-3生成的俚语,发现LLMs在俚语理解上存在显著偏差,影响其推断能力。
📝 摘要(中文)
俚语是一种常见的非正式语言,给自然语言处理系统带来了挑战。尽管大型语言模型(LLMs)的进步使得这一问题变得更易处理,但其可靠性依赖于模型对俚语结构知识的捕捉程度。本文通过系统比较人类与机器生成的俚语使用,探讨了LLMs在俚语理解中的偏差,发现其创造性知识与人类使用存在显著不一致,限制了其在语言分析等推断任务中的应用能力。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在俚语生成和理解中的偏差问题,现有方法未能充分捕捉人类对俚语的使用特征。
核心思路:通过系统比较人类与机器生成的俚语,分析其在特征、创造性和信息性方面的差异,以评估LLMs的俚语理解能力。
技术框架:研究采用了评估框架,主要包括三个核心模块:俚语使用特征分析、创造性评估和信息性分析,分别从不同维度对俚语进行比较。
关键创新:最重要的创新在于系统性地揭示了LLMs在俚语理解中的偏差,尤其是在创造性和信息性方面的不足,与传统方法相比,提供了更深入的分析视角。
关键设计:研究中使用了来自在线俚语词典的真实俚语数据作为基准,结合GPT-4o和Llama-3生成的俚语进行对比,重点关注了生成的俚语的创造性和信息性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLMs在俚语生成方面存在显著偏差,尤其是在创造性和信息性方面的表现不如人类生成的俚语。具体而言,LLMs生成的俚语在信息性评分上低于人类俚语,显示出其在语言分析任务中的局限性。
🎯 应用场景
该研究的潜在应用领域包括社交媒体分析、语言学习工具和自动化内容生成等。通过提高LLMs对俚语的理解能力,可以增强其在非正式语言处理中的应用价值,推动自然语言处理技术的发展。
📄 摘要(原文)
Slang is a commonly used type of informal language that poses a daunting challenge to NLP systems. Recent advances in large language models (LLMs), however, have made the problem more approachable. While LLM agents are becoming more widely applied to intermediary tasks such as slang detection and slang interpretation, their generalizability and reliability are heavily dependent on whether these models have captured structural knowledge about slang that align well with human attested slang usages. To answer this question, we contribute a systematic comparison between human and machine-generated slang usages. Our evaluative framework focuses on three core aspects: 1) Characteristics of the usages that reflect systematic biases in how machines perceive slang, 2) Creativity reflected by both lexical coinages and word reuses employed by the slang usages, and 3) Informativeness of the slang usages when used as gold-standard examples for model distillation. By comparing human-attested slang usages from the Online Slang Dictionary (OSD) and slang generated by GPT-4o and Llama-3, we find significant biases in how LLMs perceive slang. Our results suggest that while LLMs have captured significant knowledge about the creative aspects of slang, such knowledge does not align with humans sufficiently to enable LLMs for extrapolative tasks such as linguistic analyses.