Can LLM Assist in the Evaluation of the Quality of Machine Learning Explanations?

📄 arXiv: 2502.20635v1 📥 PDF

作者: Bo Wang, Yiqiao Li, Jianlong Zhou, Fang Chen

分类: cs.HC, cs.LG

发布日期: 2025-02-28


💡 一句话要点

探索LLM作为评估者在可解释机器学习中的应用,但尚未完全取代人类

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可解释机器学习 大型语言模型 解释评估 自动化评估 主观指标 客观指标

📋 核心要点

  1. 可解释机器学习缺乏有效的评估方法,难以确定最佳解释方法。
  2. 提出一种结合LLM和人类评估者的工作流程,用于评估解释的质量。
  3. 实验表明LLM在主观指标评估上有效,但在客观指标上仍不如人类。

📝 摘要(中文)

可解释机器学习(XML)旨在通过解释机器学习(ML)系统的“黑盒”结果来解决其神秘机制。尽管已经开发了各种解释方法,但确定哪种XML方法最适合特定的ML环境仍然不清楚,这突显了有效评估解释的必要性。基于Transformer的大型语言模型(LLM)的评估能力为采用LLM作为评估解释的工具提供了机会。本文提出了一种结合基于LLM和人类评估者的工作流程来评估解释。我们研究了基于LLM的评估者如何评估各种解释方法的质量,并将他们的评估能力与虹膜分类场景中人类评估者的评估能力进行比较,采用了主观和客观指标。结论是,虽然基于LLM的评估者可以有效地使用主观指标评估解释的质量,但它们尚未充分发展到可以取代人类评估者的程度。

🔬 方法详解

问题定义:论文旨在解决可解释机器学习(XML)领域中,如何有效评估不同解释方法质量的问题。现有方法主要依赖人工评估,成本高昂且主观性强。因此,如何利用自动化手段,例如大型语言模型(LLM),来辅助甚至替代人工评估,成为一个重要的研究方向。现有方法的痛点在于缺乏客观、高效的评估机制,难以快速筛选和优化解释方法。

核心思路:论文的核心思路是探索利用LLM的文本理解和推理能力,将其作为一种自动化的评估者,来评估不同解释方法生成的解释质量。通过将解释方法生成的解释文本输入LLM,并设计合适的提示词(prompt),引导LLM对解释的质量进行打分或排序。同时,将LLM的评估结果与人工评估结果进行对比,分析LLM在评估解释质量方面的能力和局限性。

技术框架:论文提出的技术框架包含以下几个主要步骤:1) 选择需要评估的解释方法;2) 使用这些解释方法对机器学习模型的预测结果进行解释,生成解释文本;3) 设计合适的提示词,将解释文本输入LLM;4) LLM根据提示词对解释文本的质量进行评估,输出评估结果;5) 将LLM的评估结果与人工评估结果进行对比分析,评估LLM作为评估者的有效性。

关键创新:论文的关键创新在于探索了LLM在可解释机器学习评估中的应用潜力,并提出了一种结合LLM和人工评估者的混合评估框架。通过实验验证了LLM在主观指标评估方面的有效性,为自动化评估解释质量提供了一种新的思路。

关键设计:论文的关键设计包括:1) 提示词的设计,如何设计合适的提示词,引导LLM关注解释文本的关键特征,例如完整性、相关性、简洁性等;2) 评估指标的选择,论文采用了主观和客观两种类型的评估指标,主观指标包括解释的可理解性、有用性等,客观指标包括解释的准确性、一致性等;3) 对比实验的设计,论文将LLM的评估结果与人工评估结果进行对比,分析LLM在不同评估指标上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在主观指标(如可理解性、有用性)的评估上表现良好,与人类评估者具有较高的一致性。然而,在客观指标(如准确性、一致性)的评估上,LLM的表现仍有待提高,与人类评估者存在一定差距。这表明LLM目前更擅长评估解释的主观质量,但在评估解释的客观正确性方面仍需进一步发展。

🎯 应用场景

该研究成果可应用于可解释机器学习的自动化评估流程中,帮助研究人员和工程师快速评估和选择最佳的解释方法。此外,该研究也为利用LLM进行其他类型的自动化评估任务提供了借鉴,例如代码质量评估、文本摘要质量评估等。未来,随着LLM能力的不断提升,其在自动化评估领域的应用前景将更加广阔。

📄 摘要(原文)

EXplainable machine learning (XML) has recently emerged to address the mystery mechanisms of machine learning (ML) systems by interpreting their 'black box' results. Despite the development of various explanation methods, determining the most suitable XML method for specific ML contexts remains unclear, highlighting the need for effective evaluation of explanations. The evaluating capabilities of the Transformer-based large language model (LLM) present an opportunity to adopt LLM-as-a-Judge for assessing explanations. In this paper, we propose a workflow that integrates both LLM-based and human judges for evaluating explanations. We examine how LLM-based judges evaluate the quality of various explanation methods and compare their evaluation capabilities to those of human judges within an iris classification scenario, employing both subjective and objective metrics. We conclude that while LLM-based judges effectively assess the quality of explanations using subjective metrics, they are not yet sufficiently developed to replace human judges in this role.