Grounded Satirical Generation with RAG
作者: Oona Itkonen, Yuxin Su, Linyao Du, Ona De Gibert
分类: cs.CL
发布日期: 2026-05-11
💡 一句话要点
提出基于检索增强生成(RAG)的讽刺生成流程,用于生成基于新闻的芬兰语讽刺释义。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 讽刺生成 检索增强生成 自然语言处理 幽默计算 文本生成
📋 核心要点
- 大型语言模型在生成幽默内容时面临挑战,尤其是在讽刺这种高度依赖语境的幽默形式上。
- 论文提出了一种基于检索增强生成(RAG)的讽刺生成流程,利用新闻内容生成特定语境下的讽刺词典释义。
- 实验结果表明,RAG能提高生成内容的政治相关性,但在提升幽默感方面效果不明显,同时提出了新的评估框架。
📝 摘要(中文)
由于幽默的主观性,幽默生成对于大型语言模型(LLMs)来说仍然是一项具有挑战性的任务。我们专注于讽刺,这是一种受语境强烈影响的幽默形式。在这项工作中,我们提出了一种新颖的基于检索增强生成(RAG)的讽刺生成流程,该流程利用当前新闻来生成芬兰语语境下的讽刺词典定义。我们还引入了一个新的特定于任务的评估框架,并用六名人工标注员标注了100个生成的定义,从而能够分析包括文化背景、源词类型以及RAG的存在与否等多种实验条件。我们的结果表明,生成的定义被认为比幽默更具有政治性。基于主题的词选择和RAG都提高了输出的政治相关性,但都没有在幽默生成方面产生明显的提升。此外,我们对五个最先进模型的LLM-as-a-judge评估表明,LLM在政治相关性方面与人类判断的相关性良好,但在幽默方面表现不佳。我们发布了我们的代码和带注释的数据集,以支持对基于语境的讽刺生成和评估的进一步研究。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在讽刺文本生成方面的不足,特别是如何使生成的讽刺内容与现实世界事件关联,并更具政治相关性。现有方法难以生成具有足够讽刺意味且与特定语境相关的内容,缺乏有效的评估框架来衡量讽刺生成效果。
核心思路:论文的核心思路是通过检索增强生成(RAG)的方式,让模型在生成讽刺内容时能够参考最新的新闻信息,从而确保生成的讽刺释义与时事相关,并增加其政治性。同时,引入人工标注进行更细致的评估,弥补LLM在幽默理解上的不足。
技术框架:整体框架包含三个主要阶段:1) 新闻检索:利用关键词从新闻语料库中检索相关文档。2) 讽刺生成:将检索到的新闻和目标词输入大型语言模型,生成讽刺性的释义。3) 人工评估和LLM评估:使用人工标注员对生成结果的幽默感和政治相关性进行评估,同时使用LLM作为裁判进行自动评估。
关键创新:论文的关键创新在于将检索增强生成应用于讽刺生成任务,并结合人工评估对生成结果进行细致分析。此外,论文还贡献了一个带注释的讽刺生成数据集,可用于未来研究。
关键设计:使用了不同的Prompt模版进行RAG,比较有RAG和没有RAG的效果。选择不同的目标词,包括基于主题的词和随机选择的词。使用6名人工标注员对100个生成的定义进行标注,评估其幽默感、政治相关性等指标。LLM评估采用了zero-shot的方式,让LLM对生成结果进行评分。
🖼️ 关键图片
📊 实验亮点
实验结果显示,RAG和基于主题的词选择都提高了生成定义的政治相关性,但未显著提升幽默感。人工评估表明,生成的定义更偏向政治性而非幽默性。LLM作为裁判在政治相关性判断上与人类标注员的相关性较高,但在幽默感判断上表现较差。论文发布了代码和标注数据集。
🎯 应用场景
该研究成果可应用于智能文案生成、社交媒体内容创作、政治评论生成等领域。通过结合RAG,可以使生成的内容更具时效性和政治相关性。此外,该研究提出的评估框架可以帮助评估讽刺生成模型的性能,促进相关技术的发展。未来可扩展到其他语种和文化背景下的讽刺生成。
📄 摘要(原文)
Humor generation remains challenging task for Large Language Models (LLMs), due to their subjective nature. We focus on satire, a form of humor strongly shaped by context. In this work, we present a novel pipeline for grounded satire generation that uses Retrieval-Augmented Generation (RAG) over current news to produce satirical dictionary definitions in the Finnish context. We also introduce a new task-specific evaluation framework and annotate 100 generated definitions with six human annotators, enabling analysis across multiple experimental conditions, including cultural background, source-word type, and the presence or absence of RAG. Our results show that the generated definitions are perceived as more political than humorous. Both topic-based word selection and RAG improve the political relevance of the outputs, but neither yields clear gains in humor generation. In addition, our LLM-as-a-judge evaluation of five state-of-the-art models indicates that LLMs correlate well with human judgments on political relevance, but perform poorly on humor. We release our code and annotated dataset to support further research on grounded satire generation and evaluation.