DVD: A Robust Method for Detecting Variant Contamination in Large Language Model Evaluation

📄 arXiv: 2601.04895v1 📥 PDF

作者: Renzhao Liang, Jingru Chen, Bo Jia, Bo Deng, Chenggang Xie, Yidong Wang, Ke Jin, Xin Wang, Linfeng Zhang, Cunxiang Wang

分类: cs.AI

发布日期: 2026-01-08


💡 一句话要点

提出DVD方法以解决大语言模型评估中的变体污染问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 变体污染 大型语言模型 检测方法 生成分布 自然语言处理

📋 核心要点

  1. 现有方法难以检测变体污染,导致评估结果失真,无法真实反映模型推理能力。
  2. 本文提出DVD方法,通过分析生成分布的方差来检测变体污染,利用温度采样的局部输出分布特征。
  3. 实验结果表明,DVD在多个数据集上均优于基于困惑度和其他基线方法,表现出强大的鲁棒性。

📝 摘要(中文)

评估大型语言模型(LLMs)时,变体污染问题日益严重,即训练语料中包含语义等价但在词汇或句法上有所改变的测试项。这些经过改写或结构变换的变体逃避了基于采样一致性或困惑度的现有检测器,导致基准分数因记忆而非真实推理而被夸大。为此,本文提出了DVD(通过生成分布的方差检测),一种单样本检测器,建模温度采样引起的局部输出分布。关键在于,受污染的项目会在记忆遵循状态和扰动漂移状态之间交替,导致低概率标记的合成难度方差异常高,而未受污染的项目则保持平滑的方差。我们构建了第一个变体污染基准,并在多个数据集上验证了DVD的有效性。

🔬 方法详解

问题定义:本文解决的是大型语言模型评估中的变体污染问题。现有方法如困惑度检测无法有效识别经过改写的测试项,导致评估结果失真。

核心思路:论文的核心思路是通过分析生成分布的方差来检测变体污染。受污染的项目会在记忆遵循状态和扰动漂移状态之间交替,导致生成的低概率标记的合成难度方差异常高。

技术框架:整体架构包括数据生成、变体过滤和检测模块。首先生成语义等价的变体,然后通过模型微调模拟污染,最后利用DVD方法检测变体污染。

关键创新:最重要的技术创新在于将生成分布的方差作为变体污染的检测指纹,与现有基于困惑度的方法本质上不同,提供了一种新的检测思路。

关键设计:在参数设置上,DVD方法对温度采样进行了优化,确保能够有效捕捉到污染项的方差特征。损失函数设计上,强调了对低概率标记的关注,以提高检测的准确性。整体网络结构保持简单但有效,确保了高效的计算性能。

📊 实验亮点

实验结果显示,DVD方法在多个数据集上均优于困惑度、Min-k%++、编辑距离(CDD)和嵌入相似度等基线方法,且在超参数设置上表现出强鲁棒性。具体而言,DVD在Omni-MATH和SuperGPQA数据集上均实现了显著的性能提升,验证了其有效性。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的评估、自然语言处理任务的性能验证以及模型训练过程中的数据质量监控。通过有效检测变体污染,能够提升模型评估的准确性和可靠性,进而推动AI技术在各行业的应用与发展。

📄 摘要(原文)

Evaluating large language models (LLMs) is increasingly confounded by \emph{variant contamination}: the training corpus contains semantically equivalent yet lexically or syntactically altered versions of test items. Unlike verbatim leakage, these paraphrased or structurally transformed variants evade existing detectors based on sampling consistency or perplexity, thereby inflating benchmark scores via memorization rather than genuine reasoning. We formalize this problem and introduce \textbf{DVD} (\textbf{D}etection via \textbf{V}ariance of generation \textbf{D}istribution), a single-sample detector that models the local output distribution induced by temperature sampling. Our key insight is that contaminated items trigger alternation between a \emph{memory-adherence} state and a \emph{perturbation-drift} state, yielding abnormally high variance in the synthetic difficulty of low-probability tokens; uncontaminated items remain in drift with comparatively smooth variance. We construct the first benchmark for variant contamination across two domains Omni-MATH and SuperGPQA by generating and filtering semantically equivalent variants, and simulate contamination via fine-tuning models of different scales and architectures (Qwen2.5 and Llama3.1). Across datasets and models, \textbf{DVD} consistently outperforms perplexity-based, Min-$k$\%++, edit-distance (CDD), and embedding-similarity baselines, while exhibiting strong robustness to hyperparameters. Our results establish variance of the generation distribution as a principled and practical fingerprint for detecting variant contamination in LLM evaluation.