The Rise of Verbal Tics in Large Language Models: A Systematic Analysis Across Frontier Models
作者: Shuai Wu, Xue Li, Yanna Feng, Yufang Li, Zhijun Wang, Ran Wang
分类: cs.CL, cs.AI
发布日期: 2026-04-21
备注: 20 pages, 17 figures, 8 tables. Technical report
💡 一句话要点
系统分析前沿大语言模型中的语言习惯性重复现象,揭示对齐训练的潜在代价。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 语言习惯性重复 对齐训练 人机交互 自然语言处理
📋 核心要点
- 现有大语言模型在对齐训练后,出现大量重复、公式化的语言模式,影响了输出质量和用户体验。
- 论文提出语言习惯性重复指数(VTI)来量化模型输出中重复语言模式的程度,并分析其与模型行为的相关性。
- 实验结果表明,不同模型VTI差异显著,且VTI与奉承行为呈正相关,与人类感知自然度呈负相关。
📝 摘要(中文)
随着大型语言模型(LLMs)通过诸如基于人类反馈的强化学习(RLHF)和宪法AI等对齐技术不断发展,一种日益增长且越来越明显的现象已经出现:语言习惯性重复的激增——这是一种重复性的、公式化的语言模式,渗透到模型输出中。这些模式包括奉承性的开场白(“这是一个很好的问题!”,“太棒了!”),伪同情性的肯定(“我完全理解您的担忧”,“我在这里支持您”)和过度使用的词汇(“探究”,“锦绣”,“细微差别”)。在本文中,我们对八个最先进的LLM中的语言习惯性重复现象进行了系统分析:GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro、Grok 4.2、Doubao-Seed-2.0-pro、Kimi K2.5、DeepSeek V3.2和MiMo-V2-Pro。我们利用一个定制的评估框架进行基于API的标准评估,评估了英语和中文的10个任务类别中的10,000个提示,产生了160,000个模型响应。我们引入了语言习惯性重复指数(VTI),这是一个量化重复流行程度的综合指标,并分析了其与奉承、词汇多样性和人类感知自然度之间的相关性。我们的研究结果表明,模型之间存在显着差异:Gemini 3.1 Pro表现出最高的VTI(0.590),而DeepSeek V3.2表现出最低的VTI(0.295)。我们进一步证明,语言习惯性重复在多轮对话中会累积,在主观任务中会放大,并显示出明显的跨语言模式。人类评估(N = 120)证实了奉承和感知自然度之间存在很强的负相关关系(r = -0.87,p < 0.001)。这些结果强调了当前训练范式的“对齐税”,并强调了对更真实的人工智能交互框架的迫切需求。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在经过对齐训练(如RLHF)后,出现大量“语言习惯性重复”(verbal tics)的问题。这些重复性的、公式化的语言模式降低了模型输出的自然度和真实性,影响用户体验。现有方法缺乏对这一现象的系统性分析和量化评估。
核心思路:论文的核心思路是通过设计一个量化指标(VTI)来评估不同LLM中语言习惯性重复的程度,并分析其与模型其他行为(如奉承)以及人类感知自然度之间的关系。通过大规模实验,揭示对齐训练可能带来的负面影响,为未来模型训练提供指导。
技术框架:论文构建了一个基于API的标准评估框架,用于评估多个LLM在不同任务上的表现。该框架包括以下主要步骤: 1. 提示设计:设计涵盖10个任务类别的10,000个提示,包括英语和中文。 2. 模型推理:使用8个最先进的LLM对提示进行推理,生成160,000个模型响应。 3. VTI计算:计算每个模型响应的VTI,量化语言习惯性重复的程度。 4. 相关性分析:分析VTI与奉承、词汇多样性和人类感知自然度之间的相关性。 5. 人类评估:进行人类评估,验证VTI与人类感知自然度之间的关系。
关键创新:论文最重要的技术创新点是提出了语言习惯性重复指数(VTI),这是一个综合指标,用于量化LLM输出中重复语言模式的程度。VTI的计算方法未知,但其提供了一种客观评估模型输出质量的新视角。
关键设计:论文的关键设计包括: 1. 提示的多样性:涵盖10个任务类别,保证评估的全面性。 2. 模型的选择:选择8个最先进的LLM,代表了当前LLM的最高水平。 3. 评估指标的综合性:综合考虑VTI、奉承、词汇多样性和人类感知自然度,进行多维度分析。 4. 跨语言评估:同时评估英语和中文,考察语言习惯性重复的跨语言模式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同模型VTI差异显著,Gemini 3.1 Pro的VTI最高(0.590),DeepSeek V3.2的VTI最低(0.295)。人类评估证实,奉承行为与感知自然度之间存在强烈的负相关关系(r = -0.87,p < 0.001)。这些数据突出了当前对齐训练方法可能存在的“对齐税”问题。
🎯 应用场景
该研究成果可应用于改进大语言模型的训练方法,减少模型输出中的重复性语言模式,提高模型输出的自然度和真实性。这有助于提升人机交互体验,使AI助手更像人类,从而在智能客服、内容创作、教育辅导等领域发挥更大的作用。未来的研究可以探索更有效的对齐训练方法,在提升模型性能的同时,避免引入不必要的语言习惯性重复。
📄 摘要(原文)
As Large Language Models (LLMs) continue to evolve through alignment techniques such as Reinforcement Learning from Human Feedback (RLHF) and Constitutional AI, a growing and increasingly conspicuous phenomenon has emerged: the proliferation of verbal tics -- repetitive, formulaic linguistic patterns that pervade model outputs. These range from sycophantic openers ("That's a great question!", "Awesome!") to pseudo-empathetic affirmations ("I completely understand your concern", "I'm right here to catch you") and overused vocabulary ("delve", "tapestry", "nuanced"). In this paper, we present a systematic analysis of the verbal tic phenomenon across eight state-of-the-art LLMs: GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro, Grok 4.2, Doubao-Seed-2.0-pro, Kimi K2.5, DeepSeek V3.2, and MiMo-V2-Pro. Utilizing a custom evaluation framework for standardized API-based evaluation, we assess 10,000 prompts across 10 task categories in both English and Chinese, yielding 160,000 model responses. We introduce the Verbal Tic Index (VTI), a composite metric quantifying tic prevalence, and analyze its correlation with sycophancy, lexical diversity, and human-perceived naturalness. Our findings reveal significant inter-model variation: Gemini 3.1 Pro exhibits the highest VTI (0.590), while DeepSeek V3.2 achieves the lowest (0.295). We further demonstrate that verbal tics accumulate over multi-turn conversations, are amplified in subjective tasks, and show distinct cross-lingual patterns. Human evaluation (N = 120) confirms a strong inverse relationship between sycophancy and perceived naturalness (r = -0.87, p < 0.001). These results underscore the "alignment tax" of current training paradigms and highlight the urgent need for more authentic human-AI interaction frameworks.