CyBiasBench: Benchmarking Bias in LLM Agents for Cyber-Attack Scenarios
作者: Taein Lim, Seongyong Ju, Munhyeok Kim, Hyunjun Kim, Hoki Kim
分类: cs.CR, cs.AI
发布日期: 2026-05-08
备注: Under Review
🔗 代码/项目: GITHUB
💡 一句话要点
提出CyBiasBench基准测试,揭示大模型智能体在网络攻击场景中的选择性偏见与行为模式
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 网络安全 智能体行为 算法偏见 基准测试 对抗性评估 决策分析
📋 核心要点
- 核心问题:现有研究缺乏对LLM智能体在网络攻击任务中行为一致性与选择偏见的系统性量化评估,导致其攻击决策机制不透明。
- 方法要点:构建CyBiasBench基准,通过多维度提示词控制与攻击家族分类,量化评估智能体的攻击分布熵与偏见动量效应。
- 实验效果:实验证实了智能体存在固有的攻击偏见,且这种偏见具有抗干预性,强制引导无法有效提升攻击成功率,揭示了模型行为的鲁棒性特征。
📝 摘要(中文)
大语言模型(LLM)正日益被部署为进攻性网络安全领域的自主智能体。本文揭示了一个有趣的现象:不同的智能体表现出截然不同的攻击模式。具体而言,每个智能体都存在“攻击选择偏见”,即无论提示词如何变化,其攻击重心均不成比例地集中在特定的攻击家族子集上。为了系统地量化这一行为,我们引入了CyBiasBench,这是一个包含630个会话的综合基准测试,评估了5种智能体在3个目标、4种提示条件及10个攻击家族下的表现。研究发现,不同智能体在攻击家族分配分布上存在显著的偏见,且具有不同的熵水平。这种偏见更倾向于被视为智能体的固有特征,而非与攻击成功率直接相关。此外,实验揭示了“偏见动量效应”,即智能体倾向于抵制与其固有偏见冲突的显式引导,且这种强制的分布偏移并未带来攻击性能的显著提升。
🔬 方法详解
问题定义:论文旨在解决LLM作为网络安全智能体时,其攻击策略选择是否存在系统性偏差的问题。现有研究多关注攻击成功率,却忽视了智能体在面对多种攻击手段时,是否表现出对特定攻击类型的“偏好”或“固化行为”,这直接影响了安全评估的全面性。
核心思路:通过构建标准化的评估框架CyBiasBench,将攻击行为解构为可量化的分布问题。研究假设智能体的攻击选择并非完全随机,而是受其预训练权重或对齐策略影响,表现出一种类似于“性格”的攻击偏见。
技术框架:该框架包含三个核心维度:5种主流LLM智能体、3个模拟攻击目标环境、以及4种不同强度的提示词引导条件。通过覆盖10个攻击家族的分类体系,对智能体在630个独立会话中的决策路径进行统计建模,计算攻击分布的熵值与偏见强度。
关键创新:首次定义并量化了“偏见动量效应”(Bias Momentum Effect),即智能体在面对强制改变攻击策略的提示时,表现出对原有偏好路径的抗性。这一发现挑战了通过简单提示工程即可改变模型攻击行为的传统认知。
关键设计:采用熵(Entropy)作为衡量攻击多样性的指标,通过对比不同提示条件下的分布偏移量,量化智能体对特定攻击家族的依赖程度。实验设计中包含显式引导测试,以验证模型在面对冲突指令时的行为稳定性。
🖼️ 关键图片
📊 实验亮点
CyBiasBench通过630个会话的深度评估,量化了智能体的攻击分布熵。实验结果表明,智能体对特定攻击家族的偏好是其固有特征,与攻击成功率无直接相关性。特别是“偏见动量效应”的发现,证明了在网络攻击场景下,通过提示词强制改变模型行为的有效性极低,且不会带来性能增益,为理解模型决策机制提供了关键证据。
🎯 应用场景
该研究在网络安全红队测试、自动化渗透测试工具开发以及LLM安全性评估领域具有重要价值。通过识别智能体的攻击偏见,安全专家可以更准确地评估模型在实际对抗场景中的覆盖范围,避免因模型偏见导致的防御盲区,并为开发更具鲁棒性和多样性的安全智能体提供理论依据。
📄 摘要(原文)
Large language models (LLMs) are increasingly deployed as autonomous agents in offensive cybersecurity. In this paper, we reveal an interesting phenomenon: different agents exhibit distinct attack patterns. Specifically, each agent exhibits an attack-selection bias, disproportionately concentrating its efforts on a narrow subset of attack families regardless of prompt variations. To systematically quantify this behavior, we introduce CyBiasBench, a comprehensive 630-session benchmark that evaluates five agents on three targets and four prompt conditions with ten attack families. We identify explicit bias across agents, with different dominant attack families and varying entropy levels in their attack-family allocation distributions. Such bias is better characterized as a trait of the agents, rather than a factor associated with the attack success rate. Furthermore, our experiments reveal a bias momentum effect, where agents resist explicit steering toward attack families that conflict with their bias. This forced distribution shift does not yield measurable improvements in attack performance. To ensure reproducibility and facilitate future research, we release an interactive result dashboard at https://trustworthyai.co.kr/CyBiasBench/ and a reproducibility artifact with aggregated session-level statistics and full evaluation scripts at https://github.com/Harry24k/CyBiasBench.