InterPol: De-anonymizing LM Arena via Interpolated Preference Learning
作者: Minsung Cho, Jaehyung Kim
分类: cs.AI
发布日期: 2026-03-16
💡 一句话要点
提出INTERPOL,通过插值偏好学习破解LM Arena的模型匿名性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模型识别 匿名性破解 偏好学习 模型插值 自适应课程学习
📋 核心要点
- 现有方法难以有效识别风格相似或同系列的模型,导致LM Arena等平台的匿名性面临挑战。
- INTERPOL通过模型插值生成困难负样本,并结合自适应课程学习,学习区分目标模型。
- 实验表明,INTERPOL显著提升了模型识别精度,并揭示了排名操纵的潜在风险。
📝 摘要(中文)
模型回复的严格匿名性是LM Arena等基于投票的排行榜可靠性的关键。先前的研究试图利用TF-IDF或词袋等简单统计特征来破坏这一假设,但这些方法通常缺乏区分风格相似或同系列模型的能力。为了克服这些限制并揭示漏洞的严重性,我们引入了INTERPOL,这是一个模型驱动的识别框架,它学习使用插值偏好数据来区分目标模型和其他模型。具体来说,INTERPOL通过模型插值合成困难负样本,并采用自适应课程学习策略,从而捕捉到表面的统计特征所遗漏的深层风格模式。大量的实验表明,INTERPOL在识别精度方面明显优于现有的基线。此外,我们通过在Arena对战数据上进行排名操纵模拟,量化了我们发现的真实威胁。
🔬 方法详解
问题定义:论文旨在解决LM Arena等平台上模型匿名性被破解的问题。现有方法,如基于TF-IDF或词袋模型的统计特征,无法有效区分风格相似或同系列的模型,导致模型身份泄露的风险。这种风险可能被用于操纵排行榜,影响评估的公正性。
核心思路:论文的核心思路是利用模型驱动的方法,通过学习模型之间的偏好关系来识别模型。具体来说,通过插值生成“困难负样本”,迫使模型学习更深层次的风格特征,而不仅仅是表面的统计特征。这种方法能够更有效地捕捉模型之间的细微差异,从而提高识别精度。
技术框架:INTERPOL框架主要包含以下几个阶段:1) 数据准备:收集LM Arena等平台上的模型回复数据。2) 模型插值:通过对不同模型的参数进行插值,生成新的模型回复,作为困难负样本。3) 偏好学习:训练一个模型,学习区分目标模型和插值生成的负样本。4) 自适应课程学习:根据模型的学习进度,动态调整负样本的难度,提高模型的泛化能力。
关键创新:INTERPOL的关键创新在于:1) 使用模型插值生成困难负样本,迫使模型学习更深层次的风格特征。2) 采用自适应课程学习策略,动态调整负样本的难度,提高模型的泛化能力。3) 提出了一种模型驱动的识别框架,能够更有效地识别风格相似的模型。
关键设计:模型插值采用线性插值方法,通过调整插值系数来控制负样本的难度。自适应课程学习策略根据模型的识别精度,动态调整插值系数的范围。损失函数采用交叉熵损失函数,优化目标是最大化目标模型和负样本之间的区分度。具体的网络结构未知。
🖼️ 关键图片
📊 实验亮点
INTERPOL在模型识别精度方面显著优于现有基线方法。实验结果表明,INTERPOL能够有效地识别风格相似的模型,并揭示了LM Arena等平台面临的排名操纵风险。通过排名操纵模拟,论文量化了模型匿名性被破解可能造成的实际威胁。
🎯 应用场景
该研究成果可应用于提升在线评估平台的安全性,防止恶意用户通过破解模型匿名性来操纵排行榜。此外,该方法也可用于检测AI生成内容的来源,例如识别由特定模型生成的文本或图像,从而打击虚假信息和版权侵权行为。未来,该技术或可扩展到其他类型的匿名化系统,提高其安全性。
📄 摘要(原文)
Strict anonymity of model responses is a key for the reliability of voting-based leaderboards, such as LM Arena. While prior studies have attempted to compromise this assumption using simple statistical features like TF-IDF or bag-ofwords, these methods often lack the discriminative power to distinguish between stylistically similar or within-family models. To overcome these limitations and expose the severity of vulnerability, we introduce INTERPOL, a model-driven identification framework that learns to distinguish target models from others using interpolated preference data. Specifically, INTERPOL captures deep stylistic patterns that superficial statistical features miss by synthesizing hard negative samples through model interpolation and employing an adaptive curriculum learning strategy. Extensive experiments demonstrate that INTERPOL significantly outperforms existing baselines in identification accuracy. Furthermore, we quantify the real-world threat of our findings through ranking manipulation simulations on Arena battle data.