The Illusion of Reasoning: Exposing Evasive Data Contamination in LLMs via Zero-CoT Truncation

📄 arXiv: 2605.21856v1 📥 PDF

作者: Yifan Lan, Yuanpu Cao, Hanyu Wang, Lu Lin, Jinghui Chen

分类: cs.LG, cs.AI

发布日期: 2026-05-21

🔗 代码/项目: GITHUB


💡 一句话要点

提出Zero-CoT Probe,通过截断CoT推理暴露LLM中的数据污染问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据污染检测 大型语言模型 思维链 Zero-CoT 黑盒检测 同构扰动 模型评估

📋 核心要点

  1. 现有LLM评估受数据污染影响,恶意发布者采用释义等手段规避检测,导致模型性能虚高。
  2. 论文提出Zero-CoT Probe (ZCP),通过截断CoT推理暴露模型潜在的记忆捷径,从而检测数据污染。
  3. 实验表明,ZCP能有效检测直接和规避性数据污染,并量化污染程度,优于现有方法。

📝 摘要(中文)

大型语言模型(LLM)在各种任务中展现了卓越的推理能力,但数据污染破坏了对这些能力的客观评估。恶意模型发布者使用规避性或间接的污染策略,例如释义基准数据以逃避现有的检测方法并人为地提高排行榜性能,这进一步加剧了这个问题。目前的方法难以可靠地检测这种隐蔽的污染。本文揭示了一个关键现象:模型生成的推理步骤会主动掩盖其潜在的记忆。受此启发,我们提出了一种新颖的黑盒检测方法Zero-CoT Probe (ZCP),它故意截断整个思维链(CoT)过程,以暴露潜在的捷径映射。为了进一步将记忆与模型固有的问题解决能力隔离开来,ZCP将模型在原始基准上的zero-CoT性能与同构扰动的参考数据集进行比较。此外,我们引入了污染置信度,这是一种量化污染的可能性和严重程度的指标,超越了简单的二元分类。在先前确定的受污染模型和专门微调的受污染模型上进行的大量实验表明,ZCP能够稳健地检测直接和规避性数据污染。ZCP的代码可在https://github.com/Yifan-Lan/zero-cot-probe上获取。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中难以检测的规避性数据污染问题。现有检测方法难以发现通过释义等手段伪装的污染数据,导致模型在基准测试中表现虚高,无法真实反映模型的推理能力。现有方法无法有效区分模型真正的推理能力和记忆能力。

核心思路:论文的核心思路是,模型的思维链(Chain-of-Thought, CoT)推理过程会掩盖其潜在的记忆能力。通过故意截断CoT推理过程,迫使模型直接依赖记忆进行预测,从而暴露潜在的捷径映射。同时,引入同构扰动数据集,进一步区分模型的记忆和推理能力。

技术框架:ZCP方法包含以下几个主要步骤: 1. Zero-CoT 推理:对目标模型在原始基准数据集上进行 Zero-CoT 推理,即不提供任何推理步骤,直接要求模型给出答案。 2. 同构扰动:对原始基准数据集进行同构扰动,生成语义相似但表达不同的参考数据集。 3. Zero-CoT 推理(扰动数据集):对目标模型在扰动后的数据集上进行 Zero-CoT 推理。 4. 性能比较:比较模型在原始数据集和扰动数据集上的 Zero-CoT 性能。 5. 污染置信度计算:基于性能差异,计算污染置信度,量化污染的可能性和严重程度。

关键创新:ZCP 的关键创新在于: 1. 截断 CoT 推理:通过截断 CoT 推理,暴露模型潜在的记忆捷径,从而更容易检测数据污染。 2. 同构扰动数据集:使用同构扰动数据集,区分模型的记忆和推理能力,提高检测的准确性。 3. 污染置信度:引入污染置信度,量化污染的可能性和严重程度,提供更全面的污染评估。

关键设计: * 同构扰动方法:具体采用何种同构扰动方法(例如,释义、同义词替换等)对数据集进行扰动,以保证语义相似性但表达不同。 * 性能比较指标:选择合适的性能指标(例如,准确率、F1 值等)来比较模型在原始数据集和扰动数据集上的 Zero-CoT 性能。 * 污染置信度计算公式:设计合理的污染置信度计算公式,将性能差异转化为污染的可能性和严重程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ZCP能够有效检测直接和规避性数据污染,并在多个受污染模型上取得了显著的检测效果。与现有方法相比,ZCP能够更准确地识别被释义等手段伪装的污染数据,并量化污染程度,为LLM的可靠性评估提供了有力工具。

🎯 应用场景

该研究成果可应用于评估大型语言模型的真实推理能力,防止模型发布者通过数据污染作弊,提高LLM基准测试的可靠性。此外,该方法可用于检测和缓解LLM中的记忆偏差,提升模型在实际应用中的泛化能力和安全性。

📄 摘要(原文)

Large language models (LLMs) have demonstrated impressive reasoning abilities across a wide range of tasks, but data contamination undermines the objective evaluation of these capabilities. This problem is further exacerbated by malicious model publishers who use evasive, or indirect, contamination strategies, such as paraphrasing benchmark data to evade existing detection methods and artificially boost leaderboard performance. Current approaches struggle to reliably detect such stealthy contamination. In this work, we uncover a critical phenomenon: a model's generated reasoning steps actively mask its underlying memorization. Inspired by this, we propose the Zero-CoT Probe (ZCP), a novel black-box detection method that deliberately truncates the entire Chain-of-Thought (CoT) process to expose latent shortcut mappings. To further isolate memorization from the model's intrinsic problem-solving capabilities, ZCP compares the model's zero-CoT performance on the original benchmark against an isomorphically perturbed reference dataset. Furthermore, we introduce Contamination Confidence, a metric that quantifies both the likelihood and severity of contamination, moving beyond simple binary classifications. Extensive experiments on both previously identified contaminated models and specially fine-tuned contaminated models demonstrate that ZCP robustly detects both direct and evasive data contamination. The code for ZCP is accessible at https://github.com/Yifan-Lan/zero-cot-probe.