The Mask of Civility: Benchmarking Chinese Mock Politeness Comprehension in Large Language Models

📄 arXiv: 2602.03107v1 📥 PDF

作者: Yitong Zhang, Yuhan Xiang, Mingxuan Liu

分类: cs.CL

发布日期: 2026-02-03

备注: Preprint


💡 一句话要点

构建中文嘲讽礼貌数据集,评测大型语言模型在礼貌理解上的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 中文语用理解 嘲讽礼貌 人际关系管理 数据集构建

📋 核心要点

  1. 现有大型语言模型在语用理解方面存在不足,尤其是在识别中文中微妙的礼貌和嘲讽礼貌方面。
  2. 该研究构建了一个包含礼貌、不礼貌和嘲讽礼貌三种类别的中文数据集,并结合多种提示策略来评估模型。
  3. 实验结果揭示了不同模型在中文礼貌理解上的差异,为提升模型在复杂语境下的语用能力提供了参考。

📝 摘要(中文)

本研究从语用学的角度出发,系统地评估了代表性大型语言模型(LLMs)在识别中文中的礼貌、不礼貌和嘲讽礼貌现象方面的性能差异。为了弥补语用理解方面的现有差距,该研究采用了人际关系管理理论和嘲讽礼貌模型,构建了一个结合真实和模拟中文语篇的三类别数据集。选择了包括GPT-5.1和DeepSeek在内的六个代表性模型作为测试对象,并在四种提示条件下进行了评估:零样本、少样本、知识增强和混合策略。这项研究是“大语言学”范式下的一次有意义的尝试,为在技术变革时代应用语用理论提供了一种新颖的方法。它也回应了技术与人文如何共存的当代问题,代表了一种桥接语言技术和人文反思的跨学科努力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在理解中文语境下的礼貌、不礼貌以及更复杂的嘲讽礼貌表达方面的不足。现有方法难以准确捕捉这些细微的语用差异,导致模型在实际应用中可能产生误解或不恰当的回复。

核心思路:论文的核心思路是构建一个专门用于评估中文礼貌理解的数据集,并利用该数据集对现有的大型语言模型进行基准测试。通过分析模型在不同提示策略下的表现,揭示其在语用理解方面的优势和不足,从而为未来的模型改进提供方向。

技术框架:整体框架包括以下几个主要步骤:1) 基于人际关系管理理论和嘲讽礼貌模型,设计数据集的类别和标注规范;2) 收集和生成包含礼貌、不礼貌和嘲讽礼貌表达的中文语料;3) 选择代表性的大型语言模型作为测试对象;4) 设计不同的提示策略,包括零样本、少样本、知识增强和混合策略;5) 评估模型在数据集上的性能,并分析结果。

关键创新:该研究的关键创新在于构建了一个专门针对中文嘲讽礼貌理解的数据集,并系统地评估了多个大型语言模型在该数据集上的表现。此外,该研究还探索了不同的提示策略对模型性能的影响,为提升模型的语用理解能力提供了新的思路。

关键设计:数据集的设计基于人际关系管理理论和嘲讽礼貌模型,确保了数据的质量和多样性。提示策略的设计考虑了模型的知识储备和学习能力,旨在充分发挥模型的潜力。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0

📊 实验亮点

该研究通过构建中文嘲讽礼貌数据集,对包括GPT-5.1和DeepSeek在内的六个代表性模型进行了评估。实验结果表明,不同模型在中文礼貌理解上存在显著差异,且不同的提示策略对模型性能有重要影响。具体的性能数据和提升幅度在摘要中未提及,属于未知信息。

🎯 应用场景

该研究成果可应用于智能客服、情感分析、人机对话等领域,提升机器在中文语境下的沟通能力和情商。通过更准确地理解用户的意图和情感,机器可以提供更贴心、更人性化的服务,从而改善用户体验。未来,该研究还可以扩展到其他语言和文化背景,促进跨文化交流和理解。

📄 摘要(原文)

From a pragmatic perspective, this study systematically evaluates the differences in performance among representative large language models (LLMs) in recognizing politeness, impoliteness, and mock politeness phenomena in Chinese. Addressing the existing gaps in pragmatic comprehension, the research adopts the frameworks of Rapport Management Theory and the Model of Mock Politeness to construct a three-category dataset combining authentic and simulated Chinese discourse. Six representative models, including GPT-5.1 and DeepSeek, were selected as test subjects and evaluated under four prompting conditions: zero-shot, few-shot, knowledge-enhanced, and hybrid strategies. This study serves as a meaningful attempt within the paradigm of ``Great Linguistics,'' offering a novel approach to applying pragmatic theory in the age of technological transformation. It also responds to the contemporary question of how technology and the humanities may coexist, representing an interdisciplinary endeavor that bridges linguistic technology and humanistic reflection.