Pushing the Limits of Safety: A Technical Report on the ATLAS Challenge 2025
作者: Zonghao Ying, Siyang Wu, Run Hao, Peng Ying, Shixuan Sun, Pengyu Chen, Junze Chen, Hao Du, Kaiwen Shen, Shangkun Wu, Jiwei Wei, Shiyuan He, Yang Yang, Xiaohai Xu, Ke Ma, Qianqian Xu, Qingming Huang, Shi Lin, Xun Wang, Changting Lin, Meng Han, Yilei Jiang, Siqi Lai, Yaozhi Zheng, Yifei Song, Xiangyu Yue, Zonglei Jing, Tianyuan Zhang, Zhilei Zhu, Aishan Liu, Jiakai Wang, Siyuan Liang, Xianglong Kong, Hainan Li, Junjie Mu, Haotong Qin, Yue Yu, Lei Chen, Felix Juefei-Xu, Qing Guo, Xinyun Chen, Yew Soon Ong, Xianglong Liu, Dawn Song, Alan Yuille, Philip Torr, Dacheng Tao
分类: cs.CR, cs.CV
发布日期: 2025-06-14 (更新: 2025-07-11)
备注: AdvML@CVPR Challenge Report
🔗 代码/项目: GITHUB
💡 一句话要点
ATLAS 2025挑战赛:评估并提升多模态大语言模型对抗攻击的安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 安全性评估 对抗性攻击 图像-文本攻击 越狱攻击
📋 核心要点
- 多模态大语言模型面临越狱攻击的安全威胁,现有防御机制仍有不足,需要更系统性的评估和提升。
- ATLAS 2025挑战赛旨在通过对抗性图像-文本攻击,全面评估MLLM的脆弱性,并为防御机制提供指导。
- 比赛结果揭示了MLLM安全防护的挑战,并为未来研究提供了基准,推动更安全的多模态AI系统发展。
📝 摘要(中文)
多模态大语言模型(MLLM)在各种应用中实现了变革性进步,但仍然容易受到安全威胁,特别是诱导有害输出的越狱攻击。为了系统地评估和提高其安全性,我们组织了对抗测试与大模型对齐安全挑战赛(ATLAS)2025。本技术报告介绍了比赛的发现,比赛涉及86个团队通过对抗性图像-文本攻击在两个阶段测试MLLM的漏洞:白盒和黑盒评估。比赛结果突出了保护MLLM方面持续存在的挑战,并为开发更强大的防御机制提供了宝贵的指导。该挑战为MLLM安全评估建立了新的基准,并为推进更安全的多模态人工智能系统奠定了基础。此挑战的代码和数据可在https://github.com/NY1024/ATLAS_Challenge_2025公开获取。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在面对对抗性攻击时存在的安全漏洞问题。现有的MLLM容易受到图像-文本组合的恶意输入攻击,导致模型产生有害、不安全或不符合预期的输出。现有防御方法难以有效应对这些复杂的对抗性攻击,缺乏系统性的评估和基准。
核心思路:核心思路是通过组织大规模的对抗性攻击挑战赛,吸引研究人员和开发者共同参与,探索MLLM的脆弱性,并促进更有效的防御机制的开发。通过白盒和黑盒两种攻击模式,全面评估MLLM在不同攻击场景下的安全性。
技术框架:ATLAS 2025挑战赛包含两个阶段:白盒评估和黑盒评估。在白盒评估阶段,参赛队伍可以访问MLLM的内部参数和结构,从而设计更具针对性的攻击。在黑盒评估阶段,参赛队伍只能通过输入和输出来与MLLM交互,模拟真实的攻击场景。比赛组织方提供统一的评估平台和数据集,用于衡量参赛队伍的攻击效果。
关键创新:该研究的关键创新在于构建了一个大规模、标准化的MLLM安全评估平台,并引入了对抗性图像-文本攻击作为主要的评估手段。通过挑战赛的形式,激发了研究人员对MLLM安全问题的关注,并促进了新型防御方法的涌现。此外,比赛结果也为MLLM安全研究提供了宝贵的基准数据。
关键设计:比赛采用对抗性图像-文本攻击,参赛者需要设计能够欺骗MLLM的恶意输入,例如,通过修改图像或文本内容,诱导MLLM产生有害的输出。评估指标包括攻击成功率、有害内容生成比例等。比赛还设置了奖励机制,鼓励参赛者开发更有效的攻击和防御方法。具体的参数设置、损失函数、网络结构等技术细节由参赛队伍自行设计。
🖼️ 关键图片
📊 实验亮点
ATLAS 2025挑战赛吸引了86个团队参与,通过白盒和黑盒攻击,揭示了现有MLLM在对抗性图像-文本攻击下的脆弱性。比赛结果表明,即使是最先进的MLLM也容易受到精心设计的攻击。比赛为MLLM安全评估建立了新的基准,并为未来研究提供了宝贵的参考数据。挑战赛的代码和数据已开源,为研究人员提供了便利。
🎯 应用场景
该研究成果可应用于提升多模态大语言模型在实际应用中的安全性,例如在智能客服、内容生成、自动驾驶等领域,降低模型被恶意利用的风险。通过建立统一的评估标准和基准,可以促进MLLM安全技术的进步,并为开发者提供指导,开发更可靠、更安全的AI系统。未来,该研究可以扩展到其他类型的多模态模型和攻击场景。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have enabled transformative advancements across diverse applications but remain susceptible to safety threats, especially jailbreak attacks that induce harmful outputs. To systematically evaluate and improve their safety, we organized the Adversarial Testing & Large-model Alignment Safety Grand Challenge (ATLAS) 2025}. This technical report presents findings from the competition, which involved 86 teams testing MLLM vulnerabilities via adversarial image-text attacks in two phases: white-box and black-box evaluations. The competition results highlight ongoing challenges in securing MLLMs and provide valuable guidance for developing stronger defense mechanisms. The challenge establishes new benchmarks for MLLM safety evaluation and lays groundwork for advancing safer multimodal AI systems. The code and data for this challenge are openly available at https://github.com/NY1024/ATLAS_Challenge_2025.