Zero-Shot Attribution for Large Language Models: A Distribution Testing Approach
作者: Clément L. Canonne, Yash Pote, Uddalok Sarkar
分类: cs.LG, cs.AI, cs.SE
发布日期: 2025-06-25
备注: 16 pages, 4 figures
💡 一句话要点
提出零-shot归属工具Anubis以解决代码归属问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 代码归属 假设检验 分布测试 密度估计 Anubis工具 机器学习
📋 核心要点
- 核心问题:现有方法在仅依赖LLM样本时,因维度诅咒导致归属问题难以处理。
- 方法要点:提出Anubis工具,将归属问题转化为分布测试,结合样本和密度估计进行分析。
- 实验或效果:Anubis在区分不同LLMs时,AUROC得分达到0.9以上,表现优异。
📝 摘要(中文)
随着越来越多的代码由大型语言模型(LLMs)生成,如何准确归属这些代码成为一个重要问题。本文通过假设检验的方法,提出了一种新的归属工具Anubis,将归属问题视为分布测试问题。该方法结合了样本和LLM的密度估计,克服了维度诅咒的挑战。实验结果表明,Anubis在区分不同LLMs(如DeepSeek-Coder、CodeGemma和Stable-Code)时,AUROC得分高达0.9以上,仅使用约2000个样本。
🔬 方法详解
问题定义:本文旨在解决如何准确归属由大型语言模型生成的代码的问题。现有方法在仅依赖LLM样本时,由于维度诅咒,导致归属问题难以处理,无法有效评估样本来源。
核心思路:论文提出的Anubis工具通过将归属问题视为分布测试,利用样本和LLM的密度估计来评估样本的来源。这种设计能够有效利用可用的模型信息,克服维度诅咒的限制。
技术框架:Anubis的整体架构包括样本收集、密度估计和分布测试三个主要模块。首先收集待测试的代码样本,然后利用LLM生成的密度估计来进行分布比较,最后通过假设检验评估样本的归属。
关键创新:Anubis的最大创新在于将归属问题转化为分布测试,结合了样本和密度估计的使用。这一方法与传统的归属方法相比,能够在样本稀缺的情况下仍然提供高效的归属能力。
关键设计:在Anubis中,关键参数包括样本数量和密度估计的精度。损失函数设计上,采用了适应性假设检验方法,以提高归属的准确性和鲁棒性。
📊 实验亮点
Anubis在实验中表现出色,AUROC得分达到0.9以上,仅使用约2000个样本,成功区分不同的LLMs,如DeepSeek-Coder、CodeGemma和Stable-Code。这一结果显著优于传统方法,展示了其在代码归属任务中的有效性。
🎯 应用场景
该研究的潜在应用领域包括代码审计、软件安全和知识产权保护等。通过准确归属代码生成源,开发者和企业可以更好地管理和追踪代码的来源,防止潜在的侵权问题。此外,该技术也可用于提升代码生成模型的透明度和可解释性,促进其在实际应用中的信任度。
📄 摘要(原文)
A growing fraction of all code is sampled from Large Language Models (LLMs). We investigate the problem of attributing code generated by language models using hypothesis testing to leverage established techniques and guarantees. Given a set of samples $S$ and a suspect model $\mathcal{L}^$, our goal is to assess the likelihood of $S$ originating from $\mathcal{L}^$. Due to the curse of dimensionality, this is intractable when only samples from the LLM are given: to circumvent this, we use both samples and density estimates from the LLM, a form of access commonly available. We introduce $\mathsf{Anubis}$, a zero-shot attribution tool that frames attribution as a distribution testing problem. Our experiments on a benchmark of code samples show that $\mathsf{Anubis}$ achieves high AUROC scores ( $\ge0.9$) when distinguishing between LLMs like DeepSeek-Coder, CodeGemma, and Stable-Code using only $\approx 2000$ samples.