When Do LLM Agents Treat Surface Noise Differently from Semantic Noise? A 68-Cell Measurement Study with a Held-Out Trace-Level Validation

📄 arXiv: 2605.25981v1 📥 PDF

作者: Liyun Zhang, Jiayi Guo

分类: cs.CL

发布日期: 2026-05-25


💡 一句话要点

研究表明LLM Agent对语义噪声比表面噪声更敏感,并揭示了潜在的推理分歧机制。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LLM Agent 鲁棒性 语义噪声 表面噪声 推理分歧 可解释性 链式思考

📋 核心要点

  1. 现有研究缺乏对LLM Agent在面对不同类型噪声时的鲁棒性差异的系统性分析。
  2. 该研究通过对比语义噪声和表面噪声对Agent行为的影响,揭示了Agent对语义噪声更敏感的现象。
  3. 实验结果表明,语义扰动更容易导致Agent推理过程中的分歧,从而影响最终答案的准确性。

📝 摘要(中文)

本文记录了一个经验现象:在由七个架构系列的十个大型语言模型驱动的chain-of-thought和ReAct Agent中,含义相关的扰动(例如,释义、同义词)比具有可比严重程度的呈现方式扰动(例如,格式、重新排序)更频繁地改变最终答案。在跨越GSM8K、MATH和HotpotQA的68个单元格(1,530个原始样本和约11,150个变体)中,严重程度匹配后,不一致性差距平均为+19.69个百分点(配对t=9.58,p<0.0001),其中64/68个单元格为正。该差距在四次严重程度代理审计中仍然存在,并且在排除qwen模型后仍然显著(+11.10个百分点,p<0.0001)。多个压力测试未能通过:在更严格的假设下,聚类引导显著性消失,可追踪性对比无法复制,跨架构生成器交换打破了每个单元格的排名,第二个LLM判断器仅产生中等程度的一致性(κ=0.50)。然后,我们在一个完全保留的第11个模型(qwen2.5-14B-Instruct;1,800条轨迹)上验证了这一主要影响,并重新测试了一个预先注册的能力×可追踪性分区,观察到一个小的但积极的保留影响(3/4个单元格为正;合并Welch t=3.81,p=9.6×10-4)。使用保留的轨迹,我们探测了四个轨迹级别的机制信号。之前的两个机制声明未能复制,并被明确撤回。相反,两个新的探测支持一种“隐形分歧”图景:语义扰动通常保留第一个动作,但从后续步骤开始导致中间推理的分歧,并伴随着稍微更深的轨迹。我们将其定位为一项测量贡献,具有保留复制和对语义扰动如何通过Agent推理传播的部分轨迹级别解释。代码、扰动语料库、原始轨迹和分析脚本已匿名发布以供审查。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)Agent在处理自然语言任务时,对输入中的噪声非常敏感。现有的研究主要关注整体的鲁棒性,缺乏对不同类型噪声(如语义噪声和表面噪声)对Agent行为影响差异的深入分析。现有方法难以区分Agent对不同类型噪声的敏感程度,以及噪声如何影响Agent的推理过程。

核心思路:该论文的核心思路是通过系统性地比较语义噪声和表面噪声对LLM Agent的影响,来揭示Agent对不同类型噪声的敏感程度差异。论文假设语义噪声由于改变了输入的含义,更容易导致Agent推理过程中的分歧,从而影响最终答案的准确性。通过控制噪声的严重程度,并观察Agent在面对不同类型噪声时的行为差异,可以更好地理解Agent的鲁棒性特征。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择多个LLM Agent和benchmark数据集(GSM8K, MATH, HotpotQA);2) 对数据集中的问题进行语义扰动(如释义、同义词替换)和表面扰动(如格式调整、重新排序),并控制扰动的严重程度;3) 使用扰动后的问题作为Agent的输入,观察Agent的推理过程和最终答案;4) 比较Agent在面对不同类型噪声时的行为差异,并分析噪声如何影响Agent的推理过程;5) 使用保留数据集验证主要发现,并进行轨迹级别的机制分析。

关键创新:该论文的关键创新在于:1) 系统性地比较了语义噪声和表面噪声对LLM Agent的影响,揭示了Agent对语义噪声更敏感的现象;2) 通过轨迹级别的分析,发现语义扰动更容易导致Agent推理过程中的分歧,从而影响最终答案的准确性;3) 使用保留数据集验证了主要发现,提高了研究结果的可靠性。

关键设计:该研究的关键设计包括:1) 使用多种LLM Agent和benchmark数据集,以提高研究结果的泛化性;2) 精心设计语义扰动和表面扰动,并控制扰动的严重程度,以保证实验的有效性;3) 使用轨迹级别的分析方法,深入理解噪声如何影响Agent的推理过程;4) 使用保留数据集验证主要发现,以提高研究结果的可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在68个单元格中,语义扰动导致的不一致性差距平均为+19.69个百分点(p<0.0001),并且在排除特定模型后仍然显著(+11.10个百分点,p<0.0001)。在保留数据集上的验证也显示出积极的影响(p=9.6×10-4)。轨迹级别的分析表明,语义扰动更容易导致Agent推理过程中的分歧。

🎯 应用场景

该研究的成果可以应用于提升LLM Agent的鲁棒性和可靠性,例如,通过针对性地增强Agent对语义噪声的抵抗能力,可以提高Agent在实际应用中的性能。此外,该研究还可以为LLM Agent的安全性评估提供参考,帮助识别Agent在面对恶意攻击时的潜在风险。

📄 摘要(原文)

We document an empirical phenomenon in chain-of-thought and ReAct agents driven by ten large language models from seven architecture families: meaning-bearing perturbations (e.g., paraphrase, synonym) alter final answers more often than presentation perturbations (e.g., formatting, reordering) of comparable severity. Across 68 cells spanning GSM8K, MATH, and HotpotQA (1,530 originals and $\sim$11,150 variants), the inconsistency gap averages +19.69 pp after severity matching (paired $t=9.58$, $p<0.0001$), with 64/68 cells positive. The gap survives four severity-proxy audits and remains significant when excluding qwen models (+11.10 pp, $p<0.0001$). Several stress tests fail honestly: cluster-bootstrap significance disappears under stricter assumptions, tractability contrasts do not replicate, cross-architecture generator swaps break per-cell rankings, and a second LLM judge yields only moderate agreement ($κ=0.50$). We then validate the headline effect on a fully held-out 11th model (qwen2.5-14B-Instruct; 1,800 trajectories) and re-test a pre-registered capability$\times$tractability partition, observing a small but positive held-out effect (3/4 cells positive; pooled Welch $t=3.81$, $p=9.6\times10^{-4}$). Using held-out trajectories, we probe four trace-level mechanism signals. Two prior mechanism claims fail to replicate and are explicitly retracted. Two new probes instead support a \emph{stealth-divergence} picture: semantic perturbations often preserve the first action but induce divergence in intermediate reasoning from later steps onward, accompanied by slightly deeper trajectories. We position this as a measurement contribution with held-out replication and a partial trace-level account of how semantic perturbations propagate through agent reasoning. Code, perturbation corpus, raw trajectories, and analysis scripts are released anonymously for review.