How Many Iterations to Jailbreak? Dynamic Budget Allocation for Multi-Turn LLM Evaluation
作者: Shai Feldman, Yaniv Romano
分类: cs.LG
发布日期: 2026-05-07
💡 一句话要点
提出动态预算分配方法以优化多轮LLM评估
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 动态预算分配 多轮对话 大型语言模型 事件触发时间 评估方法
📋 核心要点
- 现有的保守生存框架在多轮对话中采用静态预算分配,导致效率低下,难以捕捉稀有事件。
- 本文提出的动态分配方法(DAPRO)通过投影优化实现动态预算分配,能够有效界定事件发生的时间。
- 实验表明,DAPRO在多个任务中实现了更低的方差和更高的覆盖率,相较于静态基线有显著提升。
📝 摘要(中文)
评估和预测大型语言模型(LLMs)在多轮对话中的表现至关重要,但计算成本高昂,关键事件(如越狱或任务成功)往往在多次交互后才会出现。现有的保守生存框架依赖静态预算分配,效率低下。为此,本文提出了动态分配方法(DAPRO),这是第一个理论上有效的动态预算分配框架,能够在多轮LLM交互中界定事件发生的时间。我们证明了DAPRO满足预算约束,并提供了分布无关的有限样本覆盖保证,而无需依赖于先前方法中假设的审查与事件时间的条件独立性。关键的理论贡献是一个新的覆盖界限,其规模与平均审查权重的平方根成正比,从而提供了比以往更紧凑的保证。实验结果表明,DAPRO在多个任务中表现出更低的方差和更接近名义水平的覆盖率。
🔬 方法详解
问题定义:本文旨在解决在多轮对话中评估大型语言模型(LLMs)性能时,静态预算分配导致的效率低下问题。现有方法无法有效捕捉稀有事件,且计算成本高昂。
核心思路:论文提出的动态分配方法(DAPRO)通过动态调整预算分配,优化多轮交互中的事件触发时间界定。该方法不依赖于审查与事件时间的条件独立性假设,具有更广泛的适用性。
技术框架:DAPRO的整体架构包括动态预算分配模块和事件触发时间估计模块。动态预算分配模块根据当前的交互反馈调整后续的预算分配,而事件触发时间估计模块则利用新的覆盖界限进行时间预测。
关键创新:DAPRO的主要创新在于提出了一种新的覆盖界限,其规模与平均审查权重的平方根成正比,提供了比以往方法更紧凑的保证。这一创新使得在有限计算资源下也能获得无偏、低方差的评估指标估计。
关键设计:在关键设计上,DAPRO采用了特定的损失函数以优化预算分配,并设计了高效的算法来实现动态调整。此外,模型的参数设置经过精心调试,以确保在不同任务中的适应性和性能。
🖼️ 关键图片
📊 实验亮点
实验结果显示,DAPRO在多个任务(如任务成功率、越狱率等)中实现了更低的方差和更接近名义水平的覆盖率,相较于静态基线,覆盖率提升显著,展示了其在多轮LLM评估中的有效性。
🎯 应用场景
该研究的潜在应用领域包括大型语言模型的安全性评估、对话系统的性能优化以及人机交互的改进。通过动态预算分配,能够在有限的计算资源下更有效地捕捉稀有事件,提升模型的实用性和可靠性。未来,该方法可能会影响多轮对话系统的设计和评估标准。
📄 摘要(原文)
Evaluating and predicting the performance of large language models (LLMs) in multi-turn conversational settings is critical yet computationally expensive; key events -- e.g., jailbreaks or successful task completion by an agent -- often emerge only after repeated interactions. These events might be rare, and under any feasible computational budget, remain unobserved. Recent conformal survival frameworks construct reliable lower predictive bounds (LPBs) on the number of iterations to trigger the event of interest, but rely on static budget allocation that is inefficient in multi-turn setups. To address this, we introduce \emph{Dynamic Allocation via PRojected Optimization} (DAPRO), the first theoretically valid dynamic budget allocation framework for bounding the time-to-event in multi-turn LLM interactions. We prove that DAPRO satisfies the budget constraint and provides distribution-free, finite-sample coverage guarantees without requiring the conditional independence between censoring and event times assumed by prior conformal survival approaches. A key theoretical contribution is a novel coverage bound that scales with the square root of the mean censoring weight rather than the worst-case weight, yielding provably tighter guarantees than prior work. Furthermore, DAPRO can be employed to obtain unbiased, low-variance estimates of population-level evaluation metrics, such as the jailbreak rate, under limited computing resources. Comprehensive experiments across agentic task success, adversarial jailbreaks, toxic content generation, and RAG hallucinations using LLMs such as Llama 3.1 and Qwen 2.5 demonstrate that DAPRO consistently achieves coverage closer to the nominal level with lower variance than static baselines, while satisfying the budget constraint.