The Text Uncanny Valley: Non-Monotonic Performance Degradation in LLM Information Retrieval

作者: Zekai Tong, Ruiyao Xu, Aryan Shrivastava, Chenhao Tan, Ari Holtzman

分类: cs.CL, cs.AI

发布日期: 2026-05-08

备注: 18 pages, 9 figures

💡 一句话要点

揭示大语言模型中的“文本恐怖谷”现象：非单调性能退化与模式转换机制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 信息检索 鲁棒性评估 分词机制 模式转换 文本噪声

📋 核心要点

现有LLM基准测试多基于语法完美的文本，缺乏对真实场景中噪声、碎片化文本的鲁棒性评估。
论文提出“模式转换假设”，认为LLM在词级处理与字符级处理之间存在一个性能失效的过渡区间。
实验证实了“文本恐怖谷”现象，并发现该失效模式与分词机制及任务对词法对齐的依赖度密切相关。

📝 摘要（中文）

现有的LLM基准测试主要关注语法正确的输入，忽略了对不完美文本的评估。本文研究了词边界破坏（在单词中插入空格）如何影响LLM的信息检索能力。研究发现，随着插入率的增加，LLM的检测准确率呈现U型曲线，作者将其定义为“文本恐怖谷”。为解释此现象，作者提出了模式转换假设：LLM在处理近乎正常的文本时采用词级模式，在处理高度碎片化的文本时采用字符级模式，而“恐怖谷”则代表了两种模式均失效的混乱过渡期。四项实验及一项分析支持了该假设：上下文学习无法挽救谷底性能；正则化扰动可显著减轻U型曲线；数学推理任务在较弱模型中复现了该现象，但在强模型中减弱；分词熵在F1值最低点前达到峰值。这些发现揭示了在处理噪声或非结构化文本时，LLM存在一种在干净文本基准测试中不可见的失效模式。

🔬 方法详解

问题定义：论文旨在解决LLM在面对非标准、含有噪声（如词内插入空格）的文本输入时，性能表现非线性下降的问题。现有评估体系过于依赖干净文本，导致模型在真实部署场景下的脆弱性被掩盖。

核心思路：作者提出了“模式转换假设”（Mode Transition Hypothesis）。模型在处理正常文本时依赖词级语义，处理极度碎片化文本时依赖字符级特征，而当文本处于中间状态时，模型无法有效切换处理模式，导致性能陷入“恐怖谷”。

技术框架：研究通过在目标信息中系统性地插入空格来模拟词边界破坏。实验流程包括：构建受控的扰动数据集、评估不同插入率下的检索准确率（F1分数）、分析分词器（Tokenizer）的熵值变化，并对比不同模型规模及任务类型下的表现差异。

关键创新：首次定义并量化了“文本恐怖谷”现象，揭示了LLM在处理噪声文本时存在从词级到字符级处理的非单调转换机制，为理解模型内部表征冲突提供了新视角。

关键设计：研究采用了受控的扰动注入策略，通过计算分词熵（Tokenization Entropy）来量化输入文本的混乱程度，并利用上下文学习（In-context Learning）和正则化扰动方法验证了模型在不同模式下的适应能力。

🖼️ 关键图片

📊 实验亮点

研究发现LLM在信息检索任务中，随词边界破坏程度增加，准确率呈现显著的U型曲线。实验表明，分词熵在性能最低点前达到峰值，证实了模式冲突的存在。此外，强模型在依赖词法对齐的任务中表现出更强的抗干扰能力，而上下文学习在谷底区间几乎无效，揭示了该失效模式的深层机制。

🎯 应用场景

该研究对于提升LLM在OCR识别错误、社交媒体非正式文本、以及受损文档处理等场景下的鲁棒性具有重要价值。它提醒开发者在构建鲁棒性系统时，不能仅依赖干净文本基准，需针对噪声输入进行针对性的训练或微调，以避免模型在处理不规范输入时出现不可预知的性能崩塌。

📄 摘要（原文）

Existing Large Language Model (LLM) benchmarks primarily focus on syntactically correct inputs, leaving a significant gap in evaluation on imperfect text. In this work, we study how word-boundary corruption affects how LLMs detect targeted information. By inserting whitespace characters within words to break them into fragments, LLMs' detection accuracy follows a U-shaped curve with the increase in insertion rate. We refer to this curve as the Text Uncanny Valley. To explain such observation, we propose a mode transition hypothesis: LLMs operate in a word-level mode for near-normal text and a character-level mode for heavily fragmented text, with the valley marking the disordered transition where neither mode is effective. Four experiments and one analysis are consistent with this account: in-context learning fails to rescue valley-bottom performance; regularizing the perturbation substantially reduces the U-shape; a math reasoning task replicates the U-shape for Gemini 3.0 Flash but not for stronger models, suggesting the effect is attenuated when tasks rely less on exact lexical alignment; and tokenization entropy peaks before the F1 minimum, consistent with a regime-conflict interpretation. These findings reveal a failure mode invisible to clean-text benchmarks yet directly relevant to any deployment scenario involving noisy or uncurated text inputs.

The Text Uncanny Valley: Non-Monotonic Performance Degradation in LLM Information Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理