CAKE: Cloud Architecture Knowledge Evaluation of Large Language Models
作者: Tim Lukas Adam, Phongsakon Mark Konrad, Riccardo Terrenzi, Florian Girardo Lukas, Rahime Yilmaz, Krzysztof Sierszecki, Serkan Ayvaz
分类: cs.SE, cs.AI
发布日期: 2026-04-07
💡 一句话要点
CAKE:用于评估大语言模型云架构知识的基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 云原生架构 基准测试 软件架构 知识评估
📋 核心要点
- 现有软件架构中,大语言模型作为软件架构的辅助工具,但缺乏评估其云原生软件架构理解能力的基准。
- CAKE基准测试包含188个专家验证问题,覆盖Bloom分类法的四个认知水平和五个云原生主题,旨在全面评估LLM的云架构知识。
- 实验结果表明,评估格式对LLM架构知识的衡量有根本影响,推理增强能提升自由回答质量,而工具增强对小模型有害。
📝 摘要(中文)
本文提出名为CAKE的基准测试,用于评估大语言模型(LLM)对云原生软件架构的理解。CAKE包含188个经过专家验证的问题,涵盖Bloom修订分类法的四个认知水平(回忆、分析、设计和实施)以及五个云原生主题。研究人员在22个模型配置(0.5B-70B参数)上,跨四个LLM家族进行了评估,多项选择题(MCQ)采用三轮多数投票,自由回答(FR)采用LLM-as-a-judge评分。评估结果表明:MCQ准确率在超过3B参数后趋于稳定,最佳模型达到99.2%;自由回答得分在所有认知水平上稳步提升;两种格式捕捉了知识的不同方面;推理增强(+think)提高了自由回答的质量,而工具增强(+tool)降低了小型模型的性能。这些结果表明,评估格式从根本上影响了我们衡量LLM架构知识的方式。
🔬 方法详解
问题定义:现有方法缺乏专门针对云原生软件架构知识的大语言模型评估基准。这使得我们难以准确衡量LLM在云架构设计、分析和实施方面的能力,阻碍了LLM在软件架构领域的有效应用。
核心思路:本文的核心思路是构建一个全面的基准测试CAKE,该基准测试不仅覆盖了云原生架构的多个关键主题,还考虑了不同认知水平的问题,从而更全面地评估LLM的云架构知识。
技术框架:CAKE基准测试包含以下几个关键组成部分:1) 问题集:包含188个专家验证的问题,涵盖五个云原生主题。2) 认知水平分类:问题按照Bloom修订分类法的四个认知水平进行分类(回忆、分析、设计、实施)。3) 评估方法:多项选择题采用三轮多数投票,自由回答采用LLM-as-a-judge评分。4) 模型选择:选择了22个模型配置,覆盖四个LLM家族,参数范围从0.5B到70B。
关键创新:CAKE基准测试的关键创新在于其全面性和专业性。它不仅覆盖了云原生架构的多个关键主题,还考虑了不同认知水平的问题,并且所有问题都经过了专家验证。此外,CAKE还采用了LLM-as-a-judge评分方法,可以更客观地评估LLM的自由回答质量。
关键设计:CAKE的关键设计包括:1) 问题难度设计:问题难度根据Bloom分类法的认知水平进行调整,确保能够区分不同能力的LLM。2) 主题选择:选择了五个云原生主题,包括容器化、微服务、服务网格等,覆盖了云原生架构的核心概念。3) 评估指标:采用了准确率和LLM-as-a-judge评分等多种评估指标,从不同角度评估LLM的云架构知识。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MCQ准确率在超过3B参数后趋于稳定,最佳模型达到99.2%。自由回答得分在所有认知水平上稳步提升。推理增强(+think)提高了自由回答的质量,而工具增强(+tool)降低了小型模型的性能。这些结果强调了评估格式对LLM架构知识衡量的重要性。
🎯 应用场景
该研究成果可应用于评估和选择适合特定云架构任务的大语言模型,指导LLM在软件架构设计中的应用,并促进LLM在云原生领域的进一步发展。CAKE基准测试可以帮助开发者更好地理解LLM的优势和局限性,从而更有效地利用LLM来构建和维护云原生应用。
📄 摘要(原文)
In today's software architecture, large language models (LLMs) serve as software architecture co-pilots. However, no benchmark currently exists to evaluate large language models' actual understanding of cloud-native software architecture. For this reason we present a benchmark called CAKE, which consists of 188 expert-validated questions covering four cognitive levels of Bloom's revised taxonomy -- recall, analyze, design, and implement -- and five cloud-native topics. Evaluation is conducted on 22 model configurations (0.5B--70B parameters) across four LLM families, using three-run majority voting for multiple-choice questions (MCQs) and LLM-as-a-judge scoring for free-responses (FR). Based on this evaluation, four notable findings were identified. First, MCQ accuracy plateaus above 3B parameters, with the best model reaching 99.2\%. Second, free-response scores scale steadily across all cognitive levels. Third, the two formats capture different facets of knowledge, as the MCQ accuracy approaches a ceiling while free-responses continue to differentiate models. Finally, reasoning augmentation (+think) improves free-response quality, while tool augmentation (+tool) degrades performance for small models. These results suggest that the evaluation format fundamentally shapes how we measure architectural knowledge in LLMs.