Paraphrase-Induced Output-Mode Collapse: When LLMs Break Character Under Semantically Equivalent Inputs
作者: Aofan Liu, Jingxiang Meng
分类: cs.CL
发布日期: 2026-05-06
💡 一句话要点
揭示大语言模型在语义等价输入下输出模式崩溃问题,并提出PARACONSIST基准进行评估。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 输出模式崩溃 提示工程 鲁棒性评估 语义一致性 PARACONSIST基准
📋 核心要点
- 现有大语言模型在面对语义等价但表达不同的输入时,可能无法保持一致的输出格式,导致输出模式崩溃。
- 论文提出PARACONSIST基准,包含多种提示变体,用于评估模型在不同输入下的输出一致性,并量化鲁棒性。
- 实验表明,任务结构是输出模式崩溃的主要预测因素,而模型差异体现在答案一致性和长度稳定性上。
📝 摘要(中文)
本文研究了当请求的实质内容被改写时,大语言模型是否仍能以原始任务要求的格式作答。研究发现,即使在温度为零的情况下,模型也经常无法做到这一点。通过对五个2025年左右的紧凑型LLM和四种任务类型进行150个查询的评估,我们观察到一种系统性的失效模式,称之为提示变体输出模式崩溃:当一个封闭形式的提示要求一个简单的标签或单个选择token时,内容保持不变的提示变体可能会将模型推向对话式的散文,请求的格式消失,并且精确匹配的评估流程会默默地误判结果。为了使其可衡量,我们发布了PARACONSIST,一个包含900个提示的基准,由150个基本查询和五个词汇、句法和语义扩展提示变体组成,以及一个语义一致性分数,该分数将提示变体的鲁棒性分解为答案一致性、sentence-BERT语义相似性和长度稳定性。在全词答案集匹配下,只有约22%的封闭形式变体响应保留了输出中的ground-truth标签,而约78%的响应完全偏离了答案空间。在我们的样本中,崩溃的主要预测因素是任务结构而不是模型身份,模型差异由答案一致性和长度稳定性共同决定。因此,鲁棒性审计应将响应模式的保留作为与答案准确性同等重要的可靠性目标。
🔬 方法详解
问题定义:论文旨在解决大语言模型在面对语义等价的提示变体时,输出格式不一致的问题,即“提示变体输出模式崩溃”。现有方法通常关注答案的准确性,而忽略了输出格式的保持,导致评估结果可能存在偏差。这种现象在需要模型输出特定格式(如标签或token)的任务中尤为明显。
核心思路:论文的核心思路是通过构建包含多种提示变体的基准数据集,来系统性地评估模型在不同输入下的输出一致性。通过分析模型在不同提示下的输出差异,可以识别出导致输出模式崩溃的因素,并为改进模型的鲁棒性提供指导。
技术框架:论文提出了PARACONSIST基准,包含150个基本查询,每个查询有5个词汇、句法和语义扩展的提示变体,共900个提示。同时,论文还提出了语义一致性分数(Semantic Consistency Score),将提示变体的鲁棒性分解为答案一致性、sentence-BERT语义相似性和长度稳定性三个指标。
关键创新:论文的关键创新在于关注大语言模型在面对语义等价输入时的输出格式一致性问题,并提出了相应的评估基准和指标。与现有方法相比,该研究更加关注模型的鲁棒性,以及模型在不同输入下的行为一致性。
关键设计:PARACONSIST基准的设计考虑了词汇、句法和语义三个层面的提示变体,以全面评估模型的鲁棒性。语义一致性分数的设计综合考虑了答案的准确性、语义相似性和长度稳定性,以更全面地评估模型的输出质量。具体来说,答案一致性采用全词答案集匹配,语义相似性采用sentence-BERT计算,长度稳定性则直接计算输出长度的差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在全词答案集匹配下,只有约22%的封闭形式变体响应保留了ground-truth标签,而约78%的响应完全偏离了答案空间。任务结构是输出模式崩溃的主要预测因素,而非模型本身。模型之间的差异主要体现在答案一致性和长度稳定性上。
🎯 应用场景
该研究成果可应用于大语言模型的鲁棒性评估和改进,尤其是在需要模型输出特定格式的任务中。通过使用PARACONSIST基准,可以系统性地评估模型的输出一致性,并识别出导致输出模式崩溃的因素。这有助于开发更加可靠和可控的大语言模型,提高其在实际应用中的性能。
📄 摘要(原文)
When the substantive content of a request is rewritten, do large language models still answer in the format the original task asked for? We find that they often do not, even at temperature zero. On a 150-query evaluation over five compact 2025-era LLMs and four task types, we observe a systematic failure mode we call prompt-variant output-mode collapse: when a closed-form prompt asks for a bare label or a single choice token, content-preserving prompt variants can push the model into conversational prose, the requested format dissolves, and exact-match evaluation pipelines silently misjudge the result. To make this measurable, we release PARACONSIST, a 900-prompt benchmark of 150 base queries with five lexical, syntactic, and semantic-expansion prompt variants each, and a Semantic Consistency Score that decomposes prompt-variant robustness into answer consistency, sentence-BERT semantic similarity, and length stability. Under a whole-word answer-set match, only ~22% of closed-form variant responses preserve the ground-truth label inside their output, while ~78% drift away from the answer space entirely. In our pool, the dominant predictor of collapse is task structure rather than model identity, with model differentiation jointly carried by answer consistency and length stability. Robustness audits should therefore track response-mode preservation as a first-class reliability target alongside answer accuracy.