Beyond Fixed Benchmarks and Worst-Case Attacks: Dynamic Boundary Evaluation for Language Models
作者: Haoxiang Wang, Da Yu, Huishuai Zhang
分类: cs.AI
发布日期: 2026-05-07
💡 一句话要点
提出动态边界评估(DBE)框架,通过自适应搜索解决大模型静态基准测试的饱和与偏差问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 模型评估 项目反应理论 动态边界评估 指令遵循 模型安全性
📋 核心要点
- 现有静态基准测试因题目难度固定,导致模型表现出现饱和或地板效应,无法精准区分不同量级模型的真实能力差异。
- 提出动态边界评估(DBE),通过寻找模型在随机采样下通过概率为0.5的临界点,将模型能力映射到统一的难度量表上。
- 实验证明DBE能有效覆盖从弱到强的模型谱系,在安全、指令遵循及真实性评估中展现出比传统基准更强的区分度。
📝 摘要(中文)
当前的语言模型评估严重依赖于固定的基准测试,这种方法对所有模型使用相同的测试集,导致了明显的“天花板”和“地板”效应,掩盖了模型间的真实能力差距。本文提出动态边界评估(DBE),认为最有价值的评估信号存在于模型表现的“边界”处,即随机采样下通过概率接近0.5的提示词。DBE通过主动定位每个模型的边界,将其置于全局可比的难度量表上。该方法包含三个核心产出:一是涵盖安全、能力和真实性的校准题库;二是仅需API访问权限的技能引导边界搜索(SGBS)算法;三是能够将新模型映射到统一能力量表并自适应扩展评估集的协议。实验表明,DBE在不饱和的情况下覆盖了更广泛的模型谱系,且与现有数据集兼容。
🔬 方法详解
问题定义:现有评估方法依赖静态数据集,导致强模型在简单题目上饱和(天花板效应),弱模型在困难题目上完全失效(地板效应),无法提供有效的区分度。
核心思路:借鉴心理测量学中的项目反应理论(IRT),将评估重点从“模型是否答对”转向“模型在何种难度下达到50%的成功率”,从而定位模型的性能边界。
技术框架:DBE包含三个模块:1. 预构建的校准题库,通过9个参考模型验证难度;2. SGBS搜索算法,通过迭代查询定位目标模型的边界;3. 动态评估协议,根据模型表现自适应调整测试难度,并将其映射至全局量表。
关键创新:引入“边界”概念作为评估核心,摆脱了对固定测试集的依赖,实现了模型能力在统一量表上的量化,且仅需黑盒API访问即可实现。
关键设计:SGBS算法利用二分搜索思想,通过对提示词进行微调或难度分级,快速收敛至目标模型的临界难度点;同时设计了自适应扩展机制,当模型能力超出当前题库范围时,自动生成或检索更高难度的测试项。
📊 实验亮点
DBE在安全(拒绝有害请求)、能力(约束指令遵循)和真实性(多轮抗诱导)四个维度进行了实例化验证。实验结果表明,该方法在不依赖模型内部参数的情况下,能有效区分不同规模模型的能力差异,且通过自适应扩展机制,在保持与现有数据集兼容的同时,显著提升了评估的覆盖范围与区分度。
🎯 应用场景
该研究适用于大模型研发中的性能监控、模型选型及基准测试构建。其动态评估机制可用于评估不同量级模型的真实能力边界,特别是在安全对齐、复杂指令遵循及抗诱导能力测试中,能有效避免传统测试集的饱和问题,为模型迭代提供更精准的反馈。
📄 摘要(原文)
Evaluating large language models (LLMs) today rests on fixed benchmarks that apply the same set of items to any model, producing ceiling and floor effects that mask capability gaps. We argue that the most informative evaluation signal lies at the boundary, where the per-prompt pass probability is near $0.5$ under random-sampling decoding, and propose Dynamic Boundary Evaluation (DBE), which actively locates each model's boundary and places it on a globally comparable difficulty scale. DBE delivers three artifacts: (i) a calibrated item bank covering safety, capability, and truthfulness, with per-item difficulty labels validated across $9$ reference LLMs; (ii) Skill-Guided Boundary Search (SGBS), a search algorithm that finds boundary items for a given target LLM using only API-level query access; and (iii) an evaluation protocol that places a new LLM on a unified ability scale and grows the evaluation set adaptively when the target falls outside the bank's coverage. We instantiate DBE on four categories spanning safety (harmful request refusal and over-refusal), capability (constrained instruction following), and truthfulness (multi-turn sycophancy resistance). The resulting evaluation covers a broader model spectrum without saturation while remaining compatible with existing datasets.