Adversarial Arena: Crowdsourcing Data Generation through Interactive Competition

📄 arXiv: 2604.17803v1 📥 PDF

作者: Prasoon Goyal, Sattvik Sahai, Michael Johnston, Hangjie Shi, Yao Lu, Shaohua Liu, Anna Rumshisky, Rahul Gupta, Anna Gottardi, Desheng Zhang, Lavina Vaz, Leslie Ball, Lucy Hu, Luke Dai, Samyuth Sagi, Maureen Murray, Sankaranarayanan Ananthakrishnan

分类: cs.AI, cs.LG

发布日期: 2026-04-20

备注: 10 pages, 3rd DATA-FM workshop @ ICLR 2026


💡 一句话要点

提出Adversarial Arena,通过交互式对抗众包生成高质量LLM训练数据。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对抗学习 数据生成 大型语言模型 安全对齐 众包 多轮对话 网络安全

📋 核心要点

  1. 高质量、多样化的LLM训练数据稀缺且昂贵,尤其是在特定领域和多轮对话场景下。
  2. Adversarial Arena通过对抗博弈的方式,鼓励攻击者和防御者生成更具挑战性和多样性的数据。
  3. 实验表明,使用Adversarial Arena生成的数据微调LLM,在网络安全任务上取得了显著的性能提升。

📝 摘要(中文)

后训练大型语言模型(LLM)需要多样化、高质量的数据,但获取成本高昂,尤其是在低资源领域和多轮对话中。常见的解决方案是众包或合成生成,但两者通常产生低质量或低多样性的数据。本文提出Adversarial Arena,将数据生成构建为一个对抗性任务:攻击者创建提示,防御者生成响应。多个团队之间的这种交互式竞争自然会产生多样化和复杂的数据。通过与来自美国和欧洲顶尖大学的10个学术团队进行竞赛验证了这种方法,每个团队构建攻击者或防御者机器人。竞赛侧重于网络安全中LLM的安全对齐,生成了19,683个多轮对话。在此数据集上微调开源模型,在CyberSecEval-Instruct上安全代码生成方面提高了18.47%,在CyberSecEval-MITRE上提高了29.42%。

🔬 方法详解

问题定义:论文旨在解决后训练大型语言模型时,高质量、多样化数据难以获取的问题。现有方法,如众包和合成数据生成,通常面临数据质量不高、多样性不足的挑战,难以有效提升模型性能。尤其是在网络安全等专业领域,高质量的对话数据更加稀缺。

核心思路:论文的核心思路是将数据生成过程转化为一个对抗博弈。通过引入攻击者和防御者两个角色,攻击者负责生成具有挑战性的提示,防御者负责生成高质量的响应。这种对抗机制能够促使双方不断提升自身能力,从而生成更具多样性和复杂性的数据。

技术框架:Adversarial Arena的整体框架包含以下几个主要阶段:1) 招募并组建多个攻击者和防御者团队;2) 设定对抗博弈的规则和目标,例如在网络安全领域,攻击者尝试诱导模型生成不安全的代码,防御者则尝试生成安全的代码;3) 运行多轮对抗博弈,收集生成的对话数据;4) 使用收集到的数据微调LLM,并评估其在目标任务上的性能。

关键创新:Adversarial Arena的关键创新在于将对抗学习的思想引入到数据生成过程中。与传统的众包或合成数据生成方法相比,这种方法能够更有效地生成高质量、多样化的数据,从而提升LLM的性能。此外,通过引入多个团队进行对抗,可以进一步增加数据的多样性,并降低数据偏差的风险。

关键设计:在Adversarial Arena的设计中,需要仔细考虑以下几个关键因素:1) 对抗博弈的规则和目标,需要与目标任务紧密相关;2) 攻击者和防御者的能力,需要保持相对平衡,以避免出现一方过于强势的情况;3) 数据收集和评估的指标,需要能够准确反映数据的质量和多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

通过Adversarial Arena生成的19,683个多轮对话数据,微调开源LLM后,在CyberSecEval-Instruct数据集上安全代码生成性能提升了18.47%,在CyberSecEval-MITRE数据集上提升了29.42%。实验结果表明,该方法能够有效提升LLM在网络安全领域的性能。

🎯 应用场景

Adversarial Arena可应用于各种需要高质量对话数据的场景,例如:特定领域的知识问答、客户服务、智能助手等。尤其是在安全、医疗等高风险领域,该方法能够有效提升LLM的安全性和可靠性。未来,该方法有望扩展到其他类型的数据生成任务,例如图像、视频等。

📄 摘要(原文)

Post-training Large Language Models requires diverse, high-quality data which is rare and costly to obtain, especially in low resource domains and for multi-turn conversations. Common solutions are crowdsourcing or synthetic generation, but both often yield low-quality or low-diversity data. We introduce Adversarial Arena for building high quality conversational datasets by framing data generation as an adversarial task: attackers create prompts, and defenders generate responses. This interactive competition between multiple teams naturally produces diverse and complex data. We validated this approach by conducting a competition with 10 academic teams from top US and European universities, each building attacker or defender bots. The competition, focused on safety alignment of LLMs in cybersecurity, generated 19,683 multi-turn conversations. Fine-tuning an open-source model on this dataset produced an 18.47% improvement in secure code generation on CyberSecEval-Instruct and 29.42% improvement on CyberSecEval-MITRE.