When Do LLM Agents Treat Surface Noise Differently from Semantic Noise? A 68-Cell Measurement Study with a Held-Out Trace-Level Validation

作者: Liyun Zhang, Jiayi Guo

分类: cs.CL

发布日期: 2026-05-25

💡 一句话要点

研究表明LLM Agent对语义噪声比表面噪声更敏感，并揭示了潜在的推理分歧机制。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LLM Agent 鲁棒性 语义噪声 表面噪声 推理分歧 可解释性 链式思考

📋 核心要点

现有研究缺乏对LLM Agent在面对不同类型噪声时的鲁棒性差异的系统性分析。
该研究通过对比语义噪声和表面噪声对Agent行为的影响，揭示了Agent对语义噪声更敏感的现象。
实验结果表明，语义扰动更容易导致Agent推理过程中的分歧，从而影响最终答案的准确性。

📝 摘要（中文）

本文记录了一个经验现象：在由七个架构系列的十个大型语言模型驱动的chain-of-thought和ReAct Agent中，含义相关的扰动（例如，释义、同义词）比具有可比严重程度的呈现方式扰动（例如，格式、重新排序）更频繁地改变最终答案。在跨越GSM8K、MATH和HotpotQA的68个单元格（1,530个原始样本和约11,150个变体）中，严重程度匹配后，不一致性差距平均为+19.69个百分点（配对t=9.58，p<0.0001），其中64/68个单元格为正。该差距在四次严重程度代理审计中仍然存在，并且在排除qwen模型后仍然显著（+11.10个百分点，p<0.0001）。多个压力测试未能通过：在更严格的假设下，聚类引导显著性消失，可追踪性对比无法复制，跨架构生成器交换打破了每个单元格的排名，第二个LLM判断器仅产生中等程度的一致性（κ=0.50）。然后，我们在一个完全保留的第11个模型（qwen2.5-14B-Instruct；1,800条轨迹）上验证了这一主要影响，并重新测试了一个预先注册的能力×可追踪性分区，观察到一个小的但积极的保留影响（3/4个单元格为正；合并Welch t=3.81，p=9.6×10-4）。使用保留的轨迹，我们探测了四个轨迹级别的机制信号。之前的两个机制声明未能复制，并被明确撤回。相反，两个新的探测支持一种“隐形分歧”图景：语义扰动通常保留第一个动作，但从后续步骤开始导致中间推理的分歧，并伴随着稍微更深的轨迹。我们将其定位为一项测量贡献，具有保留复制和对语义扰动如何通过Agent推理传播的部分轨迹级别解释。代码、扰动语料库、原始轨迹和分析脚本已匿名发布以供审查。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）Agent在处理自然语言任务时，对输入中的噪声非常敏感。现有的研究主要关注整体的鲁棒性，缺乏对不同类型噪声（如语义噪声和表面噪声）对Agent行为影响差异的深入分析。现有方法难以区分Agent对不同类型噪声的敏感程度，以及噪声如何影响Agent的推理过程。

核心思路：该论文的核心思路是通过系统性地比较语义噪声和表面噪声对LLM Agent的影响，来揭示Agent对不同类型噪声的敏感程度差异。论文假设语义噪声由于改变了输入的含义，更容易导致Agent推理过程中的分歧，从而影响最终答案的准确性。通过控制噪声的严重程度，并观察Agent在面对不同类型噪声时的行为差异，可以更好地理解Agent的鲁棒性特征。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 选择多个LLM Agent和benchmark数据集（GSM8K, MATH, HotpotQA）；2) 对数据集中的问题进行语义扰动（如释义、同义词替换）和表面扰动（如格式调整、重新排序），并控制扰动的严重程度；3) 使用扰动后的问题作为Agent的输入，观察Agent的推理过程和最终答案；4) 比较Agent在面对不同类型噪声时的行为差异，并分析噪声如何影响Agent的推理过程；5) 使用保留数据集验证主要发现，并进行轨迹级别的机制分析。

关键创新：该论文的关键创新在于：1) 系统性地比较了语义噪声和表面噪声对LLM Agent的影响，揭示了Agent对语义噪声更敏感的现象；2) 通过轨迹级别的分析，发现语义扰动更容易导致Agent推理过程中的分歧，从而影响最终答案的准确性；3) 使用保留数据集验证了主要发现，提高了研究结果的可靠性。

关键设计：该研究的关键设计包括：1) 使用多种LLM Agent和benchmark数据集，以提高研究结果的泛化性；2) 精心设计语义扰动和表面扰动，并控制扰动的严重程度，以保证实验的有效性；3) 使用轨迹级别的分析方法，深入理解噪声如何影响Agent的推理过程；4) 使用保留数据集验证主要发现，以提高研究结果的可靠性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在68个单元格中，语义扰动导致的不一致性差距平均为+19.69个百分点（p<0.0001），并且在排除特定模型后仍然显著（+11.10个百分点，p<0.0001）。在保留数据集上的验证也显示出积极的影响（p=9.6×10-4）。轨迹级别的分析表明，语义扰动更容易导致Agent推理过程中的分歧。

🎯 应用场景

该研究的成果可以应用于提升LLM Agent的鲁棒性和可靠性，例如，通过针对性地增强Agent对语义噪声的抵抗能力，可以提高Agent在实际应用中的性能。此外，该研究还可以为LLM Agent的安全性评估提供参考，帮助识别Agent在面对恶意攻击时的潜在风险。

📄 摘要（原文）

We document an empirical phenomenon in chain-of-thought and ReAct agents driven by ten large language models from seven architecture families: meaning-bearing perturbations (e.g., paraphrase, synonym) alter final answers more often than presentation perturbations (e.g., formatting, reordering) of comparable severity. Across 68 cells spanning GSM8K, MATH, and HotpotQA (1,530 originals and $\sim$11,150 variants), the inconsistency gap averages +19.69 pp after severity matching (paired $t=9.58$, $p<0.0001$), with 64/68 cells positive. The gap survives four severity-proxy audits and remains significant when excluding qwen models (+11.10 pp, $p<0.0001$). Several stress tests fail honestly: cluster-bootstrap significance disappears under stricter assumptions, tractability contrasts do not replicate, cross-architecture generator swaps break per-cell rankings, and a second LLM judge yields only moderate agreement ($κ=0.50$). We then validate the headline effect on a fully held-out 11th model (qwen2.5-14B-Instruct; 1,800 trajectories) and re-test a pre-registered capability$\times$tractability partition, observing a small but positive held-out effect (3/4 cells positive; pooled Welch $t=3.81$, $p=9.6\times10^{-4}$). Using held-out trajectories, we probe four trace-level mechanism signals. Two prior mechanism claims fail to replicate and are explicitly retracted. Two new probes instead support a \emph{stealth-divergence} picture: semantic perturbations often preserve the first action but induce divergence in intermediate reasoning from later steps onward, accompanied by slightly deeper trajectories. We position this as a measurement contribution with held-out replication and a partial trace-level account of how semantic perturbations propagate through agent reasoning. Code, perturbation corpus, raw trajectories, and analysis scripts are released anonymously for review.

When Do LLM Agents Treat Surface Noise Differently from Semantic Noise? A 68-Cell Measurement Study with a Held-Out Trace-Level Validation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理