AutoJudger: An Agent-Driven Framework for Efficient Benchmarking of MLLMs

作者: Xuanwen Ding, Chengjun Pan, Zejun Li, Jiwen Zhang, Siyuan Wang, Zhongyu Wei

分类: cs.CL

发布日期: 2025-05-27

💡 一句话要点

提出AutoJudger，通过智能Agent驱动高效评估多模态大语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 模型评估 智能Agent 自适应评估 项目反应理论

📋 核心要点

多模态大语言模型评估成本高昂，现有方法难以兼顾效率与准确性。
AutoJudger利用Agent驱动的自适应评估，结合IRT和动态记忆，智能选择最具信息量的问题。
实验表明，AutoJudger仅用少量数据即可达到接近完整评估的排名准确率，显著降低评估成本。

📝 摘要（中文）

评估多模态大语言模型(MLLM)的成本日益增加，基准测试规模的增长和跨模态复杂性需要大量的评分工作。为了解决这一难题，我们引入了AutoJudger，这是一个由Agent驱动的框架，用于高效和自适应地基准测试MLLM，从而应对不断升级的成本。AutoJudger采用项目反应理论(IRT)来估计问题的难度，并采用自主评估Agent，根据模型的实时性能动态选择最具信息量的测试问题。具体来说，AutoJudger包含两个关键组件：一种语义感知检索机制，以确保所选问题涵盖视觉和语言模态中多样化和具有挑战性的场景；以及一个动态记忆，维护先前评估问题的上下文统计信息，以指导整个评估过程中连贯且全局知情的选题。在四个具有代表性的多模态基准上的大量实验表明，我们的自适应框架显著降低了评估成本，例如，在MMT-Bench上，AutoJudger仅使用4%的数据即可实现超过90%的排名准确率，与完整基准评估相比。

🔬 方法详解

问题定义：现有MLLM的评估过程面临着成本高昂的问题。随着模型和基准测试规模的增长，需要大量的人力和计算资源来进行全面的评估。现有的评估方法通常采用固定的测试集，无法根据模型的实际表现动态调整测试策略，导致效率低下。因此，如何以更低的成本实现对MLLM的有效评估是一个亟待解决的问题。

核心思路：AutoJudger的核心思路是利用智能Agent来模拟人类评估者的行为，根据模型的实时表现动态选择最具信息量的测试问题。通过结合项目反应理论（IRT）来估计问题难度，并利用动态记忆来维护已评估问题的上下文信息，AutoJudger能够自适应地调整测试策略，从而在保证评估准确性的前提下，显著降低评估成本。

技术框架：AutoJudger的整体框架包含以下几个主要模块：1) 问题难度估计模块：使用IRT模型估计测试集中每个问题的难度。2) 语义感知检索模块：确保选择的问题覆盖视觉和语言模态中多样化和具有挑战性的场景。3) 动态记忆模块：维护先前评估问题的上下文统计信息，用于指导后续问题的选择。4) Agent驱动的选题模块：根据模型在已评估问题上的表现，以及问题难度和上下文信息，动态选择下一个要评估的问题。整个流程是一个迭代过程，直到达到预设的评估目标或预算。

关键创新：AutoJudger的关键创新在于其Agent驱动的自适应评估策略。与传统的固定测试集评估方法不同，AutoJudger能够根据模型的实时表现动态调整测试策略，从而更加高效地发现模型的弱点和优势。此外，语义感知检索和动态记忆模块的引入，进一步提升了选题的多样性和连贯性，保证了评估的全面性和准确性。

关键设计：AutoJudger的关键设计包括：1) IRT模型的选择和训练方法，用于准确估计问题难度。2) 语义感知检索模块的实现方式，例如使用预训练的语言模型来计算问题之间的语义相似度。3) 动态记忆模块的存储结构和更新策略，用于维护已评估问题的上下文信息。4) Agent驱动的选题策略，例如使用强化学习或基于规则的方法来选择下一个要评估的问题。

🖼️ 关键图片

📊 实验亮点

AutoJudger在MMT-Bench等四个代表性多模态基准测试中表现出色。实验结果表明，AutoJudger仅使用4%的数据即可达到超过90%的排名准确率，与使用完整基准测试集相比，评估成本大幅降低。这证明了AutoJudger在保证评估准确性的前提下，显著提升了评估效率。

🎯 应用场景

AutoJudger可应用于各种多模态大语言模型的评估场景，例如模型开发过程中的性能监控、模型选择时的基准测试、以及模型部署后的质量保障。该框架能够显著降低评估成本，加速模型迭代和部署，并为用户提供更可靠的模型性能评估报告。未来，AutoJudger还可扩展到其他类型的AI模型评估，例如文本生成模型、语音识别模型等。

📄 摘要（原文）

Evaluating multimodal large language models (MLLMs) is increasingly expensive, as the growing size and cross-modality complexity of benchmarks demand significant scoring efforts. To tackle with this difficulty, we introduce AutoJudger, an agent-driven framework for efficient and adaptive benchmarking of MLLMs that tackles this escalating cost. AutoJudger employs the Item Response Theory (IRT) to estimate the question difficulty and an autonomous evaluation agent to dynamically select the most informative test questions based on the model's real-time performance. Specifically, AutoJudger incorporates two pivotal components: a semantic-aware retrieval mechanism to ensure that selected questions cover diverse and challenging scenarios across both vision and language modalities, and a dynamic memory that maintains contextual statistics of previously evaluated questions to guide coherent and globally informed question selection throughout the evaluation process. Extensive experiments on four representative multimodal benchmarks demonstrate that our adaptive framework dramatically reduces evaluation expenses, i.e. AutoJudger uses only 4% of the data to achieve over 90% ranking accuracy with the full benchmark evaluation on MMT-Bench.

AutoJudger: An Agent-Driven Framework for Efficient Benchmarking of MLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理