Are Large Language Models Truly Smarter Than Humans?

作者: Eshwar Reddy M, Sourav Karmakar

分类: cs.AI, cs.CL

发布日期: 2026-03-17

备注: 15 pages, 2 figures, 7 tables

💡 一句话要点

多方法污染审计揭示大型语言模型在公开基准测试中存在数据污染问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据污染 基准测试 模型评估 词汇检测

📋 核心要点

现有公开基准测试存在数据泄露风险，导致大型语言模型性能评估可能存在偏差。
论文提出多方法污染审计框架，通过词汇检测、释义诊断和行为探针来评估模型的数据污染程度。
实验结果表明，大型语言模型在不同领域存在不同程度的数据污染，影响了其真实性能表现。

📝 摘要（中文）

本文对六个前沿大型语言模型（LLMs）：GPT-4o, GPT-4o-mini, DeepSeek-R1, DeepSeek-V3, Llama-3.3-70B和Qwen3-235B进行了严格的多方法污染审计。由于公开排行榜显示LLMs在学术知识、法律和编程等基准测试中超越了人类专家，但这些基准测试完全公开，其问题在互联网上广泛镜像，存在模型在训练时接触到评估数据的系统性风险。实验1对513个MMLU问题应用词汇污染检测流程，发现总体污染率为13.8%（STEM领域为18.1%，哲学领域高达66.7%），估计性能提升为+0.030到+0.054准确率。实验2对100个MMLU问题应用释义和间接引用诊断，发现间接引用下的准确率平均下降7.0个百分点，法律和伦理领域下降19.8个百分点。实验3对所有513个问题和所有六个模型应用TS-Guessing行为探针，发现72.5%的问题触发了远高于偶然性的记忆信号，DeepSeek-R1表现出分布式记忆特征（76.6%的部分重建，0%的逐字回忆），解释了其异常的实验2结果。所有三个实验都收敛于相同的污染排名：STEM > 专业 > 社会科学 > 人文。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在公开基准测试中，由于训练数据与测试数据重叠而导致性能虚高的问题。现有方法难以有效检测模型是否记忆了测试数据，从而无法准确评估模型的泛化能力。

核心思路：论文的核心思路是通过多种互补的方法，从不同角度检测模型是否接触过测试数据。这些方法包括词汇层面的检测、语义层面的释义诊断以及行为层面的记忆探针。通过综合分析这些结果，可以更全面地评估模型的数据污染程度。

技术框架：论文采用三阶段的实验框架： 1. 词汇污染检测：使用词汇匹配方法检测测试集中是否存在与训练数据相似的文本片段。 2. 释义和间接引用诊断：通过修改测试集中的问题，例如使用释义或间接引用，来观察模型性能的变化。如果模型记忆了原始问题，那么在问题被修改后，性能应该会显著下降。 3. TS-Guessing行为探针：设计特定的探针问题，用于检测模型是否表现出记忆行为，例如能够部分或完全重建原始问题。

关键创新：论文的关键创新在于提出了一个多方法融合的污染审计框架，能够从词汇、语义和行为三个层面综合评估模型的数据污染程度。与单一的词汇匹配方法相比，该框架能够更准确地识别模型是否真正接触过测试数据，并评估其对模型性能的影响。

关键设计： * 词汇污染检测：使用高精度字符串匹配算法，设置合理的阈值来判断是否存在污染。 * 释义和间接引用诊断：人工构建释义和间接引用问题，保证语义不变的同时，改变词汇表达。 * TS-Guessing行为探针：设计能够诱导模型回忆原始问题的探针，并分析模型的输出，判断是否存在记忆行为。

🖼️ 关键图片

📊 实验亮点

实验结果表明，六个前沿大型语言模型在MMLU基准测试中存在不同程度的数据污染。词汇污染检测发现总体污染率为13.8%，在哲学领域高达66.7%。释义和间接引用诊断显示，间接引用下的准确率平均下降7.0个百分点，法律和伦理领域下降19.8个百分点。TS-Guessing行为探针发现72.5%的问题触发了远高于偶然性的记忆信号。

🎯 应用场景

该研究成果可应用于大型语言模型的公平评估和基准测试设计。通过对模型进行污染审计，可以更准确地评估模型的真实性能，避免因数据污染而产生的虚高结果。此外，该研究还可以指导基准测试的设计，使其更具挑战性和泛化性，从而推动大型语言模型的发展。

📄 摘要（原文）

Public leaderboards increasingly suggest that large language models (LLMs) surpass human experts on benchmarks spanning academic knowledge, law, and programming. Yet most benchmarks are fully public, their questions widely mirrored across the internet, creating systematic risk that models were trained on the very data used to evaluate them. This paper presents three complementary experiments forming a rigorous multi-method contamination audit of six frontier LLMs: GPT-4o, GPT-4o-mini, DeepSeek-R1, DeepSeek-V3, Llama-3.3-70B, and Qwen3-235B. Experiment 1 applies a lexical contamination detection pipeline to 513 MMLU questions across all 57 subjects, finding an overall contamination rate of 13.8% (18.1% in STEM, up to 66.7% in Philosophy) and estimated performance gains of +0.030 to +0.054 accuracy points by category. Experiment 2 applies a paraphrase and indirect-reference diagnostic to 100 MMLU questions, finding accuracy drops by an average of 7.0 percentage points under indirect reference, rising to 19.8 pp in both Law and Ethics. Experiment 3 applies TS-Guessing behavioral probes to all 513 questions and all six models, finding that 72.5% trigger memorization signals far above chance, with DeepSeek-R1 displaying a distributed memorization signature (76.6% partial reconstruction, 0% verbatim recall) that explains its anomalous Experiment 2 profile. All three experiments converge on the same contamination ranking: STEM > Professional > Social Sciences > Humanities.

Are Large Language Models Truly Smarter Than Humans?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理