The Text Uncanny Valley: Non-Monotonic Performance Degradation in LLM Information Retrieval

📄 arXiv: 2605.07186v1 📥 PDF

作者: Zekai Tong, Ruiyao Xu, Aryan Shrivastava, Chenhao Tan, Ari Holtzman

分类: cs.CL, cs.AI

发布日期: 2026-05-08

备注: 18 pages, 9 figures


💡 一句话要点

揭示大语言模型中的“文本恐怖谷”现象:非单调性能退化与模式转换机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 信息检索 鲁棒性评估 分词机制 模式转换 文本噪声

📋 核心要点

  1. 现有LLM基准测试多基于语法完美的文本,缺乏对真实场景中噪声、碎片化文本的鲁棒性评估。
  2. 论文提出“模式转换假设”,认为LLM在词级处理与字符级处理之间存在一个性能失效的过渡区间。
  3. 实验证实了“文本恐怖谷”现象,并发现该失效模式与分词机制及任务对词法对齐的依赖度密切相关。

📝 摘要(中文)

现有的LLM基准测试主要关注语法正确的输入,忽略了对不完美文本的评估。本文研究了词边界破坏(在单词中插入空格)如何影响LLM的信息检索能力。研究发现,随着插入率的增加,LLM的检测准确率呈现U型曲线,作者将其定义为“文本恐怖谷”。为解释此现象,作者提出了模式转换假设:LLM在处理近乎正常的文本时采用词级模式,在处理高度碎片化的文本时采用字符级模式,而“恐怖谷”则代表了两种模式均失效的混乱过渡期。四项实验及一项分析支持了该假设:上下文学习无法挽救谷底性能;正则化扰动可显著减轻U型曲线;数学推理任务在较弱模型中复现了该现象,但在强模型中减弱;分词熵在F1值最低点前达到峰值。这些发现揭示了在处理噪声或非结构化文本时,LLM存在一种在干净文本基准测试中不可见的失效模式。

🔬 方法详解

问题定义:论文旨在解决LLM在面对非标准、含有噪声(如词内插入空格)的文本输入时,性能表现非线性下降的问题。现有评估体系过于依赖干净文本,导致模型在真实部署场景下的脆弱性被掩盖。

核心思路:作者提出了“模式转换假设”(Mode Transition Hypothesis)。模型在处理正常文本时依赖词级语义,处理极度碎片化文本时依赖字符级特征,而当文本处于中间状态时,模型无法有效切换处理模式,导致性能陷入“恐怖谷”。

技术框架:研究通过在目标信息中系统性地插入空格来模拟词边界破坏。实验流程包括:构建受控的扰动数据集、评估不同插入率下的检索准确率(F1分数)、分析分词器(Tokenizer)的熵值变化,并对比不同模型规模及任务类型下的表现差异。

关键创新:首次定义并量化了“文本恐怖谷”现象,揭示了LLM在处理噪声文本时存在从词级到字符级处理的非单调转换机制,为理解模型内部表征冲突提供了新视角。

关键设计:研究采用了受控的扰动注入策略,通过计算分词熵(Tokenization Entropy)来量化输入文本的混乱程度,并利用上下文学习(In-context Learning)和正则化扰动方法验证了模型在不同模式下的适应能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现LLM在信息检索任务中,随词边界破坏程度增加,准确率呈现显著的U型曲线。实验表明,分词熵在性能最低点前达到峰值,证实了模式冲突的存在。此外,强模型在依赖词法对齐的任务中表现出更强的抗干扰能力,而上下文学习在谷底区间几乎无效,揭示了该失效模式的深层机制。

🎯 应用场景

该研究对于提升LLM在OCR识别错误、社交媒体非正式文本、以及受损文档处理等场景下的鲁棒性具有重要价值。它提醒开发者在构建鲁棒性系统时,不能仅依赖干净文本基准,需针对噪声输入进行针对性的训练或微调,以避免模型在处理不规范输入时出现不可预知的性能崩塌。

📄 摘要(原文)

Existing Large Language Model (LLM) benchmarks primarily focus on syntactically correct inputs, leaving a significant gap in evaluation on imperfect text. In this work, we study how word-boundary corruption affects how LLMs detect targeted information. By inserting whitespace characters within words to break them into fragments, LLMs' detection accuracy follows a U-shaped curve with the increase in insertion rate. We refer to this curve as the Text Uncanny Valley. To explain such observation, we propose a mode transition hypothesis: LLMs operate in a word-level mode for near-normal text and a character-level mode for heavily fragmented text, with the valley marking the disordered transition where neither mode is effective. Four experiments and one analysis are consistent with this account: in-context learning fails to rescue valley-bottom performance; regularizing the perturbation substantially reduces the U-shape; a math reasoning task replicates the U-shape for Gemini 3.0 Flash but not for stronger models, suggesting the effect is attenuated when tasks rely less on exact lexical alignment; and tokenization entropy peaks before the F1 minimum, consistent with a regime-conflict interpretation. These findings reveal a failure mode invisible to clean-text benchmarks yet directly relevant to any deployment scenario involving noisy or uncurated text inputs.