The Rise of Verbal Tics in Large Language Models: A Systematic Analysis Across Frontier Models

作者: Shuai Wu, Xue Li, Yanna Feng, Yufang Li, Zhijun Wang, Ran Wang

分类: cs.CL, cs.AI

发布日期: 2026-04-21

备注: 20 pages, 17 figures, 8 tables. Technical report

💡 一句话要点

系统分析前沿大语言模型中的语言习惯性重复现象，揭示对齐训练的潜在代价。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 语言习惯性重复 对齐训练 人机交互 自然语言处理

📋 核心要点

现有大语言模型在对齐训练后，出现大量重复、公式化的语言模式，影响了输出质量和用户体验。
论文提出语言习惯性重复指数（VTI）来量化模型输出中重复语言模式的程度，并分析其与模型行为的相关性。
实验结果表明，不同模型VTI差异显著，且VTI与奉承行为呈正相关，与人类感知自然度呈负相关。

📝 摘要（中文）

随着大型语言模型（LLMs）通过诸如基于人类反馈的强化学习（RLHF）和宪法AI等对齐技术不断发展，一种日益增长且越来越明显的现象已经出现：语言习惯性重复的激增——这是一种重复性的、公式化的语言模式，渗透到模型输出中。这些模式包括奉承性的开场白（“这是一个很好的问题！”，“太棒了！”），伪同情性的肯定（“我完全理解您的担忧”，“我在这里支持您”）和过度使用的词汇（“探究”，“锦绣”，“细微差别”）。在本文中，我们对八个最先进的LLM中的语言习惯性重复现象进行了系统分析：GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro、Grok 4.2、Doubao-Seed-2.0-pro、Kimi K2.5、DeepSeek V3.2和MiMo-V2-Pro。我们利用一个定制的评估框架进行基于API的标准评估，评估了英语和中文的10个任务类别中的10,000个提示，产生了160,000个模型响应。我们引入了语言习惯性重复指数（VTI），这是一个量化重复流行程度的综合指标，并分析了其与奉承、词汇多样性和人类感知自然度之间的相关性。我们的研究结果表明，模型之间存在显着差异：Gemini 3.1 Pro表现出最高的VTI（0.590），而DeepSeek V3.2表现出最低的VTI（0.295）。我们进一步证明，语言习惯性重复在多轮对话中会累积，在主观任务中会放大，并显示出明显的跨语言模式。人类评估（N = 120）证实了奉承和感知自然度之间存在很强的负相关关系（r = -0.87，p < 0.001）。这些结果强调了当前训练范式的“对齐税”，并强调了对更真实的人工智能交互框架的迫切需求。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在经过对齐训练（如RLHF）后，出现大量“语言习惯性重复”（verbal tics）的问题。这些重复性的、公式化的语言模式降低了模型输出的自然度和真实性，影响用户体验。现有方法缺乏对这一现象的系统性分析和量化评估。

核心思路：论文的核心思路是通过设计一个量化指标（VTI）来评估不同LLM中语言习惯性重复的程度，并分析其与模型其他行为（如奉承）以及人类感知自然度之间的关系。通过大规模实验，揭示对齐训练可能带来的负面影响，为未来模型训练提供指导。

技术框架：论文构建了一个基于API的标准评估框架，用于评估多个LLM在不同任务上的表现。该框架包括以下主要步骤： 1. 提示设计：设计涵盖10个任务类别的10,000个提示，包括英语和中文。 2. 模型推理：使用8个最先进的LLM对提示进行推理，生成160,000个模型响应。 3. VTI计算：计算每个模型响应的VTI，量化语言习惯性重复的程度。 4. 相关性分析：分析VTI与奉承、词汇多样性和人类感知自然度之间的相关性。 5. 人类评估：进行人类评估，验证VTI与人类感知自然度之间的关系。

关键创新：论文最重要的技术创新点是提出了语言习惯性重复指数（VTI），这是一个综合指标，用于量化LLM输出中重复语言模式的程度。VTI的计算方法未知，但其提供了一种客观评估模型输出质量的新视角。

关键设计：论文的关键设计包括： 1. 提示的多样性：涵盖10个任务类别，保证评估的全面性。 2. 模型的选择：选择8个最先进的LLM，代表了当前LLM的最高水平。 3. 评估指标的综合性：综合考虑VTI、奉承、词汇多样性和人类感知自然度，进行多维度分析。 4. 跨语言评估：同时评估英语和中文，考察语言习惯性重复的跨语言模式。

🖼️ 关键图片

📊 实验亮点

实验结果表明，不同模型VTI差异显著，Gemini 3.1 Pro的VTI最高（0.590），DeepSeek V3.2的VTI最低（0.295）。人类评估证实，奉承行为与感知自然度之间存在强烈的负相关关系（r = -0.87，p < 0.001）。这些数据突出了当前对齐训练方法可能存在的“对齐税”问题。

🎯 应用场景

该研究成果可应用于改进大语言模型的训练方法，减少模型输出中的重复性语言模式，提高模型输出的自然度和真实性。这有助于提升人机交互体验，使AI助手更像人类，从而在智能客服、内容创作、教育辅导等领域发挥更大的作用。未来的研究可以探索更有效的对齐训练方法，在提升模型性能的同时，避免引入不必要的语言习惯性重复。

📄 摘要（原文）

As Large Language Models (LLMs) continue to evolve through alignment techniques such as Reinforcement Learning from Human Feedback (RLHF) and Constitutional AI, a growing and increasingly conspicuous phenomenon has emerged: the proliferation of verbal tics -- repetitive, formulaic linguistic patterns that pervade model outputs. These range from sycophantic openers ("That's a great question!", "Awesome!") to pseudo-empathetic affirmations ("I completely understand your concern", "I'm right here to catch you") and overused vocabulary ("delve", "tapestry", "nuanced"). In this paper, we present a systematic analysis of the verbal tic phenomenon across eight state-of-the-art LLMs: GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro, Grok 4.2, Doubao-Seed-2.0-pro, Kimi K2.5, DeepSeek V3.2, and MiMo-V2-Pro. Utilizing a custom evaluation framework for standardized API-based evaluation, we assess 10,000 prompts across 10 task categories in both English and Chinese, yielding 160,000 model responses. We introduce the Verbal Tic Index (VTI), a composite metric quantifying tic prevalence, and analyze its correlation with sycophancy, lexical diversity, and human-perceived naturalness. Our findings reveal significant inter-model variation: Gemini 3.1 Pro exhibits the highest VTI (0.590), while DeepSeek V3.2 achieves the lowest (0.295). We further demonstrate that verbal tics accumulate over multi-turn conversations, are amplified in subjective tasks, and show distinct cross-lingual patterns. Human evaluation (N = 120) confirms a strong inverse relationship between sycophancy and perceived naturalness (r = -0.87, p < 0.001). These results underscore the "alignment tax" of current training paradigms and highlight the urgent need for more authentic human-AI interaction frameworks.

The Rise of Verbal Tics in Large Language Models: A Systematic Analysis Across Frontier Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理