Structured Multi-Criteria Evaluation of Large Language Models with Fuzzy Analytic Hierarchy Process and DualJudge

📄 arXiv: 2604.03742 📥 PDF

作者: Yulong He, Ivan Smirnov, Dmitry Fedrushkov, Sergey Kovalchuk, Ilya Revin

分类: cs.AI

发布日期: 2026-04-07


💡 一句话要点

提出基于模糊层次分析法和DualJudge的LLM结构化多标准评估方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型评估 层次分析法 模糊层次分析法 不确定性建模 Dual-Process Theory

📋 核心要点

  1. 现有LLM评估方法依赖直接评分,导致判断不一致且缺乏透明度,难以有效评估LLM的真实能力。
  2. 论文提出基于模糊层次分析法(FAHP)的结构化评估方法,利用LLM的置信度分数建模认知不确定性,提升评估的可靠性。
  3. 实验表明,FAHP和DualJudge在JudgeBench上优于直接评分,DualJudge通过融合直觉和审慎评估实现了最佳性能。

📝 摘要(中文)

大型语言模型(LLM)的有效评估仍然是一个关键瓶颈,因为传统的直接评分常常产生不一致和不透明的判断。本文将层次分析法(AHP)应用于基于LLM的评估,更重要的是,提出了一个置信度感知的模糊AHP(FAHP)扩展,该扩展通过LLM生成的置信度分数调制的三角模糊数来建模认知不确定性。在JudgeBench上进行的系统验证表明,我们的结构化方法将评估分解为显式标准,并结合了不确定性感知的聚合,从而产生更校准的判断。大量的实验表明,无论模型规模和数据集分割如何,清晰和模糊AHP都始终优于直接评分,而FAHP在不确定的比较场景中表现出卓越的稳定性。基于这些见解,我们提出了 extbf{DualJudge},这是一个受双过程理论启发的混合框架,它通过一致性感知的加权自适应地融合整体直接评分和结构化AHP输出。DualJudge实现了最先进的性能,突显了直观和审慎评估范式的互补优势。这些结果确立了不确定性感知的结构化推理是实现更可靠的LLM评估的有效途径。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)评估中存在的固有问题,即传统直接评分方法的主观性和不一致性。现有方法难以捕捉评估过程中的不确定性,导致评估结果缺乏可靠性和透明度。这使得准确衡量LLM的真实能力变得困难,阻碍了LLM的进一步发展和应用。

核心思路:论文的核心思路是将层次分析法(AHP)引入LLM评估,并进一步扩展为模糊层次分析法(FAHP),以量化评估过程中的不确定性。AHP通过将复杂问题分解为多个标准,并进行两两比较,从而实现结构化的评估。FAHP则利用模糊数来表示评估过程中的不确定性,并通过LLM生成的置信度分数进行调制,从而更加准确地反映评估者的主观判断。此外,论文还提出了DualJudge框架,将直接评分和结构化AHP评估相结合,利用两者的互补优势,进一步提升评估的准确性和可靠性。

技术框架:DualJudge框架包含以下几个主要模块:1) 直接评分模块:使用LLM对评估对象进行直接评分。2) AHP/FAHP模块:将评估问题分解为多个标准,并使用LLM进行两两比较,生成判断矩阵。FAHP在此基础上引入模糊数和置信度分数,以建模不确定性。3) 一致性检验模块:检验判断矩阵的一致性,确保评估结果的可靠性。4) 权重计算模块:根据判断矩阵计算各个标准的权重。5) 综合评分模块:根据各个标准的权重和LLM的评分,计算最终的综合评分。6) DualJudge融合模块:根据一致性检验的结果,自适应地融合直接评分和AHP/FAHP的输出,生成最终的评估结果。

关键创新:论文的关键创新在于:1) 将模糊层次分析法(FAHP)引入LLM评估,并利用LLM生成的置信度分数建模认知不确定性,从而更加准确地反映评估者的主观判断。2) 提出了DualJudge框架,将直接评分和结构化AHP评估相结合,利用两者的互补优势,进一步提升评估的准确性和可靠性。3) 通过在JudgeBench上的系统验证,证明了FAHP和DualJudge的有效性,并表明其优于传统的直接评分方法。

关键设计:FAHP的关键设计在于使用三角模糊数来表示评估过程中的不确定性,并通过LLM生成的置信度分数进行调制。具体来说,对于每个两两比较,LLM不仅需要给出比较结果,还需要给出相应的置信度分数。然后,将置信度分数转化为三角模糊数的参数,从而将不确定性纳入评估过程。DualJudge的关键设计在于一致性感知的加权融合。具体来说,根据AHP/FAHP判断矩阵的一致性指标,自适应地调整直接评分和AHP/FAHP输出的权重。如果一致性较高,则增加AHP/FAHP的权重;如果一致性较低,则增加直接评分的权重。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,FAHP和DualJudge在JudgeBench数据集上 consistently 优于直接评分方法。DualJudge通过融合直觉和审慎评估,实现了最先进的性能。FAHP在不确定性较高的场景下表现出更强的稳定性,证明了其在处理主观判断方面的优势。具体性能提升数据需要在论文中查找。

🎯 应用场景

该研究成果可应用于LLM的自动评估、模型选择和持续改进。通过更可靠的评估方法,可以更好地理解LLM的优势和不足,从而指导模型开发和优化。此外,该方法还可以应用于其他人工智能系统的评估,例如对话系统、机器翻译系统等,具有广泛的应用前景。

📄 摘要(原文)

Effective evaluation of large language models (LLMs) remains a critical bottleneck, as conventional direct scoring often yields inconsistent and opaque judgments. In this work, we adapt the Analytic Hierarchy Process (AHP) to LLM-based evaluation and, more importantly, propose a confidence-aware Fuzzy AHP (FAHP) extension that models epistemic uncertainty via triangular fuzzy numbers modulated by LLM-generated confidence scores. Systematically validated on JudgeBench, our structured approach decomposes assessments into explicit criteria and incorporates uncertainty-aware aggregation, producing more calibrated judgments. Extensive experiments demonstrate that both crisp and fuzzy AHP consistently outperform direct scoring across model scales and dataset splits, with FAHP showing superior stability in uncertain comparison scenarios. Building on these insights, we propose \textbf{DualJudge}, a hybrid framework inspired by Dual-Process Theory that adaptively fuses holistic direct scores with structured AHP outputs via consistency-aware weighting. DualJudge achieves state-of-the-art performance, underscoring the complementary strengths of intuitive and deliberative evaluation paradigms. These results establish uncertainty-aware structured reasoning as a principled pathway toward more reliable LLM assessment. Code is available atthis https URL.