From Static Benchmarks to Dynamic Protocol: Agent-Centric Text Anomaly Detection for Evaluating LLM Reasoning

📄 arXiv: 2602.23729v1 📥 PDF

作者: Seungdong Yoa, Sanghyu Yoon, Suhee Yoon, Dongmin Kim, Ye Seul Sim, Junhyun Lee, Woohyung Lim

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-02-27

备注: Accepted to ICLR 2026


💡 一句话要点

提出Agent-Centric动态协议,用于评估LLM在文本异常检测中的推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型评估 动态基准测试 Agent-Centric 文本异常检测 推理能力 对抗性攻击 LLM推理

📋 核心要点

  1. 现有LLM评估依赖静态数据集,无法有效评估模型持续进化的推理能力,且可扩展性受限。
  2. 提出Agent-Centric动态协议,通过自主Agent迭代生成、验证和解决问题,实现动态基准测试。
  3. 实验表明,该协议能有效暴露传统基准无法揭示的极端情况推理错误,并支持多维度系统评估。

📝 摘要(中文)

大型语言模型(LLM)的评估主要依赖于静态数据集,这限制了可扩展性,并且无法捕捉到最新模型不断发展的推理能力。为了克服这些限制,我们提出了一种以Agent为中心的基准测试范例,通过引入动态协议来超越静态数据集,在该协议中,自主Agent迭代地生成、验证和解决问题。在该协议中,教师Agent生成候选问题,协调者Agent严格验证其有效性并防止对抗性攻击,而学生Agent尝试解决已验证的问题。无效问题由教师Agent修改,直到通过验证。如果学生正确解决了问题,协调者会提示教师生成更具挑战性的变体。因此,随着更强大的Agent被替换到任何角色中,基准会自动扩展难度,从而无需手动管理数据集即可逐步评估大型语言模型。采用文本异常检测作为我们的主要评估形式,这需要跨句子的逻辑推理并抵抗模式匹配的捷径,我们证明了该协议系统地暴露了传统基准无法揭示的极端情况推理错误。我们进一步提倡沿着几个互补的轴评估系统,包括跨模型成对性能以及初始问题和协调者最终确定的问题之间的进展。通过将重点从固定数据集转移到动态协议,我们的方法为评估不断发展的语言模型提供了一个可持续的方向,并引入了一个以Agent为中心的基准共同演化的研究议程。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)的评估主要依赖于静态数据集,这些数据集存在两个主要问题。一是可扩展性有限,难以覆盖所有可能的推理场景。二是无法捕捉到LLM不断发展的推理能力,因为静态数据集无法动态调整难度以适应更强大的模型。因此,需要一种能够动态生成、验证和调整问题的评估方法,以更全面、更有效地评估LLM的推理能力。

核心思路:论文的核心思路是引入一个以Agent为中心的动态协议,该协议模拟了一个教师、协调者和学生的互动过程。教师Agent负责生成候选问题,协调者Agent负责验证问题的有效性并防止对抗性攻击,学生Agent负责解决问题。通过这种动态的互动,基准测试可以自动扩展难度,并暴露LLM在极端情况下的推理错误。这种设计允许基准测试随着Agent能力的提升而不断进化,从而实现对LLM推理能力的持续评估。

技术框架:该框架包含三个主要模块:教师Agent、协调者Agent和学生Agent。教师Agent负责生成候选问题,协调者Agent负责验证问题的有效性,学生Agent负责解决问题。整个流程如下:1) 教师Agent生成候选问题;2) 协调者Agent验证问题的有效性;3) 如果问题无效,教师Agent进行修改,直到通过验证;4) 学生Agent尝试解决问题;5) 如果学生Agent成功解决问题,协调者Agent提示教师Agent生成更具挑战性的变体。这个过程不断迭代,从而实现动态的基准测试。

关键创新:该论文最重要的技术创新在于提出了Agent-Centric的动态协议,将传统的静态基准测试转变为一个动态的、可进化的过程。与传统的静态数据集相比,该协议能够自动生成、验证和调整问题,从而更好地适应LLM不断发展的推理能力。此外,该协议还引入了协调者Agent,可以有效地防止对抗性攻击,保证了基准测试的可靠性。

关键设计:论文的关键设计包括:1) 使用文本异常检测作为评估形式,这需要跨句子的逻辑推理,并能有效防止模式匹配的捷径;2) 设计了教师Agent、协调者Agent和学生Agent的角色和交互方式,保证了基准测试的动态性和可靠性;3) 提出了评估系统沿着几个互补的轴,包括跨模型成对性能以及初始问题和协调者最终确定的问题之间的进展。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该动态协议能够系统地暴露传统基准无法揭示的极端情况推理错误。通过与现有静态基准的对比,证明了该方法在评估LLM推理能力方面的优势。此外,该研究还展示了如何沿着多个维度评估系统,包括跨模型成对性能和问题难度进展,为LLM的全面评估提供了新的思路。

🎯 应用场景

该研究成果可应用于LLM的持续评估和改进,尤其是在需要复杂推理能力的场景下,例如智能客服、自动问答系统、代码生成等。通过动态基准测试,可以更有效地发现LLM的潜在缺陷,并指导模型的训练和优化,从而提高LLM在实际应用中的性能和可靠性。此外,该方法还可以促进Agent-Centric基准测试研究的发展。

📄 摘要(原文)

The evaluation of large language models (LLMs) has predominantly relied on static datasets, which offer limited scalability and fail to capture the evolving reasoning capabilities of recent models. To overcome these limitations, we propose an agent-centric benchmarking paradigm that moves beyond static datasets by introducing a dynamic protocol in which autonomous agents iteratively generate, validate, and solve problems. Within this protocol, a teacher agent generates candidate problems, an orchestrator agent rigorously verifies their validity and guards against adversarial attacks, and a student agent attempts to solve the validated problems. An invalid problem is revised by the teacher agent until it passes validation. If the student correctly solves the problem, the orchestrator prompts the teacher to generate more challenging variants. Consequently, the benchmark scales in difficulty automatically as more capable agents are substituted into any role, enabling progressive evaluation of large language models without manually curated datasets. Adopting text anomaly detection as our primary evaluation format, which demands cross-sentence logical inference and resists pattern-matching shortcuts, we demonstrate that this protocol systematically exposes corner-case reasoning errors that conventional benchmarks fail to reveal. We further advocate evaluating systems along several complementary axes including cross-model pairwise performance and progress between the initial and orchestrator-finalized problems. By shifting the focus from fixed datasets to dynamic protocols, our approach offers a sustainable direction for evaluating ever-evolving language models and introduces a research agenda centered on the co-evolution of agent-centric benchmarks.