Semantic Invariance in Agentic AI

📄 arXiv: 2603.13173v1 📥 PDF

作者: I. de Zarzà, J. de Curtò, Jordi Cabot, Pietro Manzoni, Carlos T. Calafate

分类: cs.AI, cs.CL

发布日期: 2026-03-13

备注: Accepted for publication in 20th International Conference on Agents and Multi-Agent Systems: Technologies and Applications (AMSTA 2026), to appear in Springer Nature proceedings (KES Smart Innovation Systems and Technologies). The final authenticated version will be available online at Springer


💡 一句话要点

提出基于变质测试的框架,评估LLM智能体在语义不变性下的推理鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 语义不变性 变质测试 鲁棒性评估 多步推理 智能体 可靠性 语义保持转换

📋 核心要点

  1. 现有LLM评估方法主要关注固定问题公式的准确性,忽略了语义等价输入变化下的推理稳定性。
  2. 提出一种基于变质测试的框架,通过语义保持转换系统评估LLM推理智能体的鲁棒性。
  3. 实验结果表明,模型规模与鲁棒性并非正相关,小模型可能表现出更高的语义不变性。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被用作决策支持、科学问题解决和多智能体协调系统中的自主推理智能体。然而,在重要的应用中部署LLM智能体需要确保其推理在语义等价的输入变化下保持稳定,我们称之为语义不变性。标准的基准评估,评估固定、规范的问题公式的准确性,无法捕捉到这个关键的可靠性维度。为了解决这个缺点,在本文中,我们提出了一个变质测试框架,用于系统地评估LLM推理智能体的鲁棒性,应用八种语义保持转换(身份、释义、事实重排序、扩展、收缩、学术语境、商业语境和对比公式),跨越七个基础模型,涵盖四个不同的架构系列:Hermes(70B、405B)、Qwen3(30B-A3B、235B-A22B)、DeepSeek-R1 和 gpt-oss(20B、120B)。我们的评估包括八个科学领域的 19 个多步推理问题。结果表明,模型规模并不能预测鲁棒性:较小的 Qwen3-30B-A3B 实现了最高的稳定性(79.6% 的不变响应,语义相似度 0.91),而较大的模型表现出更大的脆弱性。

🔬 方法详解

问题定义:论文旨在解决LLM智能体在面对语义等价但表达形式不同的输入时,推理结果不稳定,缺乏鲁棒性的问题。现有评估方法侧重于在固定、规范的问题公式上测试准确性,无法有效衡量LLM在实际应用中可能遇到的各种语义变体下的可靠性。这种语义不变性的缺失限制了LLM在关键决策场景中的应用。

核心思路:论文的核心思路是采用变质测试(Metamorphic Testing)的方法,通过设计一系列语义保持转换(Semantic-Preserving Transformations),生成与原始输入语义等价但表达形式不同的变体。然后,将这些变体输入到LLM智能体中,观察其推理结果是否保持一致。如果推理结果发生显著变化,则表明LLM的鲁棒性较差。这样可以系统地评估LLM在面对语义变化时的稳定性。

技术框架:该框架主要包含以下几个阶段: 1. 问题选择:从多个科学领域选择多步推理问题作为测试用例。 2. 语义转换:对每个问题应用八种语义保持转换,包括身份转换、释义、事实重排序、扩展、收缩、学术语境、商业语境和对比公式,生成语义等价的变体。 3. 推理执行:将原始问题和所有变体输入到待评估的LLM智能体中,获取其推理结果。 4. 结果评估:比较原始问题和变体的推理结果,计算不变响应的比例和语义相似度,评估LLM的鲁棒性。

关键创新:该论文的关键创新在于将变质测试方法应用于LLM智能体的鲁棒性评估,并提出了一套适用于评估LLM语义不变性的语义保持转换。这种方法能够有效地发现LLM在面对语义变化时的脆弱性,为提高LLM的可靠性提供了新的思路。

关键设计:论文中关键的设计包括: 1. 语义保持转换的选择:选择了八种具有代表性的语义保持转换,覆盖了常见的语义变体,例如释义、事实重排序和语境变化。 2. 评估指标:使用不变响应的比例和语义相似度作为评估指标,量化LLM推理结果的一致性。 3. 模型选择:选择了多个不同架构和规模的LLM进行评估,以考察模型规模对鲁棒性的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,模型规模与鲁棒性并非线性相关。例如,较小的Qwen3-30B-A3B模型实现了最高的稳定性(79.6%不变响应,语义相似度0.91),而较大的模型表现出更大的脆弱性。这表明,仅仅增加模型规模并不能保证LLM在语义变化下的推理稳定性,需要更有效的训练方法和评估策略。

🎯 应用场景

该研究成果可应用于评估和提升LLM在各种实际应用场景中的可靠性,例如:决策支持系统、科学问题求解、多智能体协作等。通过变质测试,可以发现LLM在特定语义变体下的脆弱性,从而指导模型训练和优化,提高其在复杂环境中的适应性和稳定性,最终提升LLM在关键任务中的应用价值。

📄 摘要(原文)

Large Language Models (LLMs) increasingly serve as autonomous reasoning agents in decision support, scientific problem-solving, and multi-agent coordination systems. However, deploying LLM agents in consequential applications requires assurance that their reasoning remains stable under semantically equivalent input variations, a property we term semantic invariance.Standard benchmark evaluations, which assess accuracy on fixed, canonical problem formulations, fail to capture this critical reliability dimension. To address this shortcoming, in this paper we present a metamorphic testing framework for systematically assessing the robustness of LLM reasoning agents, applying eight semantic-preserving transformations (identity, paraphrase, fact reordering, expansion, contraction, academic context, business context, and contrastive formulation) across seven foundation models spanning four distinct architectural families: Hermes (70B, 405B), Qwen3 (30B-A3B, 235B-A22B), DeepSeek-R1, and gpt-oss (20B, 120B). Our evaluation encompasses 19 multi-step reasoning problems across eight scientific domains. The results reveal that model scale does not predict robustness: the smaller Qwen3-30B-A3B achieves the highest stability (79.6% invariant responses, semantic similarity 0.91), while larger models exhibit greater fragility.