A Framework for Assessing AI Agent Decisions and Outcomes in AutoML Pipelines

📄 arXiv: 2602.22442 📥 PDF

作者: Gaoyuan Du, Amit Ahlawat, Xiaoyang Liu, Jing Wu

分类: cs.AI

发布日期: 2026-02-28


💡 一句话要点

提出评估代理(EA)框架,用于决策中心化地评估AutoML Agent的决策质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AutoML Agent评估 决策中心化 大型语言模型 可解释性 评估代理 推理一致性

📋 核心要点

  1. 现有Agentic AutoML系统评估侧重于最终性能,缺乏对中间决策质量的结构化评估。
  2. 提出评估代理(EA),作为观察者评估AutoML Agent的决策有效性、推理一致性等。
  3. 实验表明EA能有效检测错误决策,识别推理不一致,并将性能变化归因于Agent决策。

📝 摘要(中文)

基于Agent的AutoML系统依赖于大型语言模型,在数据处理、模型选择和评估等多个阶段做出复杂的决策。然而,现有的评估方法仍然以结果为中心,主要关注最终的任务性能。通过对先前工作的回顾,我们发现没有一个被调查的Agentic AutoML系统报告结构化的、决策层面的评估指标,用于事后评估中间决策的质量。为了解决这个局限性,我们提出了一个评估代理(EA),它在不干扰AutoML Agent执行的情况下,对其进行决策中心化的评估。EA被设计为一个观察者,从四个维度评估中间决策:决策有效性、推理一致性、超越准确性的模型质量风险以及反事实决策影响。在四个概念验证实验中,我们证明了EA可以(i)以0.919的F1分数检测到错误的决策,(ii)独立于最终结果识别推理不一致性,以及(iii)将下游性能变化归因于Agent决策,揭示了最终指标中-4.9%至+8.3%的影响。这些结果表明,以决策为中心的评估揭示了仅通过结果指标无法看到的失败模式。我们的工作将Agentic AutoML系统的评估从基于结果的视角转变为审计Agent决策的视角,为可靠、可解释和可管理的自主ML系统奠定了基础。

🔬 方法详解

问题定义:现有Agentic AutoML系统依赖大型语言模型进行多阶段决策,但评估方法主要关注最终任务性能,缺乏对中间决策质量的评估,导致难以发现和纠正Agent的潜在问题。现有方法无法提供决策层面的可解释性,阻碍了对Agent行为的理解和改进。

核心思路:论文的核心思路是引入一个独立的评估代理(Evaluation Agent, EA),作为一个观察者,在不干扰AutoML Agent执行的情况下,对其中间决策进行评估。EA通过分析决策的有效性、推理一致性、模型质量风险以及反事实决策影响,提供决策层面的评估指标,从而揭示仅通过最终结果无法发现的Agent行为问题。

技术框架:EA框架包含以下主要模块:1) 决策捕获模块:负责捕获AutoML Agent在各个阶段做出的决策,包括数据处理、模型选择、超参数优化等。2) 评估维度定义模块:定义了四个评估维度,包括决策有效性(Decision Validity)、推理一致性(Reasoning Consistency)、模型质量风险(Model Quality Risks)和反事实决策影响(Counterfactual Decision Impact)。3) 评估执行模块:根据定义的评估维度,对捕获的决策进行评估,生成相应的评估指标。4) 结果分析模块:对评估结果进行分析,识别Agent的潜在问题,并提供改进建议。

关键创新:该论文的关键创新在于提出了决策中心化的评估方法,将Agentic AutoML系统的评估从传统的基于结果的视角转变为审计Agent决策的视角。这种方法能够更深入地理解Agent的行为,发现潜在的问题,并为改进Agent的设计提供指导。与现有方法相比,EA能够提供决策层面的可解释性,从而更好地理解Agent的决策过程。

关键设计:EA的关键设计包括:1) 评估维度的选择:选择了决策有效性、推理一致性、模型质量风险和反事实决策影响这四个维度,以全面评估Agent的决策质量。2) 评估指标的设计:针对每个评估维度,设计了相应的评估指标,例如,对于决策有效性,可以使用专家知识或规则进行验证;对于推理一致性,可以检查Agent的推理过程是否符合逻辑。3) 反事实决策影响的评估:通过模拟不同的决策,评估其对最终结果的影响,从而了解Agent决策的重要性。

📊 实验亮点

实验结果表明,EA能够以0.919的F1分数检测到错误的决策,能够独立于最终结果识别推理不一致性,并且能够将下游性能变化归因于Agent决策,揭示了最终指标中-4.9%至+8.3%的影响。这些结果证明了EA在决策中心化评估方面的有效性,并表明其能够揭示仅通过结果指标无法看到的Agent行为问题。

🎯 应用场景

该研究成果可应用于各种Agentic AutoML系统,帮助开发者更好地理解和改进Agent的行为。通过决策中心化的评估,可以提高AutoML系统的可靠性、可解释性和可管理性,从而促进其在实际场景中的应用。例如,在金融、医疗等对模型风险和可解释性要求较高的领域,该方法可以帮助开发者构建更加安全可靠的AutoML系统。

📄 摘要(原文)

Agent-based AutoML systems rely on large language models to make complex, multi-stage decisions across data processing, model selection, and evaluation. However, existing evaluation practices remain outcome-centric, focusing primarily on final task performance. Through a review of prior work, we find that none of the surveyed agentic AutoML systems report structured, decision-level evaluation metrics intended for post-hoc assessment of intermediate decision quality. To address this limitation, we propose an Evaluation Agent (EA) that performs decision-centric assessment of AutoML agents without interfering with their execution. The EA is designed as an observer that evaluates intermediate decisions along four dimensions: decision validity, reasoning consistency, model quality risks beyond accuracy, and counterfactual decision impact. Across four proof-of-concept experiments, we demonstrate that the EA can (i) detect faulty decisions with an F1 score of 0.919, (ii) identify reasoning inconsistencies independent of final outcomes, and (iii) attribute downstream performance changes to agent decisions, revealing impacts ranging from -4.9\% to +8.3\% in final metrics. These results illustrate how decision-centric evaluation exposes failure modes that are invisible to outcome-only metrics. Our work reframes the evaluation of agentic AutoML systems from an outcome-based perspective to one that audits agent decisions, offering a foundation for reliable, interpretable, and governable autonomous ML systems.