CAKE: Cloud Architecture Knowledge Evaluation of Large Language Models

作者: Tim Lukas Adam, Phongsakon Mark Konrad, Riccardo Terrenzi, Florian Girardo Lukas, Rahime Yilmaz, Krzysztof Sierszecki, Serkan Ayvaz

分类: cs.SE, cs.AI

发布日期: 2026-04-07

💡 一句话要点

CAKE：用于评估大语言模型云架构知识的基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 云原生架构 基准测试 软件架构 知识评估

📋 核心要点

现有软件架构中，大语言模型作为软件架构的辅助工具，但缺乏评估其云原生软件架构理解能力的基准。
CAKE基准测试包含188个专家验证问题，覆盖Bloom分类法的四个认知水平和五个云原生主题，旨在全面评估LLM的云架构知识。
实验结果表明，评估格式对LLM架构知识的衡量有根本影响，推理增强能提升自由回答质量，而工具增强对小模型有害。

📝 摘要（中文）

本文提出名为CAKE的基准测试，用于评估大语言模型(LLM)对云原生软件架构的理解。CAKE包含188个经过专家验证的问题，涵盖Bloom修订分类法的四个认知水平（回忆、分析、设计和实施）以及五个云原生主题。研究人员在22个模型配置（0.5B-70B参数）上，跨四个LLM家族进行了评估，多项选择题(MCQ)采用三轮多数投票，自由回答(FR)采用LLM-as-a-judge评分。评估结果表明：MCQ准确率在超过3B参数后趋于稳定，最佳模型达到99.2%；自由回答得分在所有认知水平上稳步提升；两种格式捕捉了知识的不同方面；推理增强(+think)提高了自由回答的质量，而工具增强(+tool)降低了小型模型的性能。这些结果表明，评估格式从根本上影响了我们衡量LLM架构知识的方式。

🔬 方法详解

问题定义：现有方法缺乏专门针对云原生软件架构知识的大语言模型评估基准。这使得我们难以准确衡量LLM在云架构设计、分析和实施方面的能力，阻碍了LLM在软件架构领域的有效应用。

核心思路：本文的核心思路是构建一个全面的基准测试CAKE，该基准测试不仅覆盖了云原生架构的多个关键主题，还考虑了不同认知水平的问题，从而更全面地评估LLM的云架构知识。

技术框架：CAKE基准测试包含以下几个关键组成部分：1) 问题集：包含188个专家验证的问题，涵盖五个云原生主题。2) 认知水平分类：问题按照Bloom修订分类法的四个认知水平进行分类（回忆、分析、设计、实施）。3) 评估方法：多项选择题采用三轮多数投票，自由回答采用LLM-as-a-judge评分。4) 模型选择：选择了22个模型配置，覆盖四个LLM家族，参数范围从0.5B到70B。

关键创新：CAKE基准测试的关键创新在于其全面性和专业性。它不仅覆盖了云原生架构的多个关键主题，还考虑了不同认知水平的问题，并且所有问题都经过了专家验证。此外，CAKE还采用了LLM-as-a-judge评分方法，可以更客观地评估LLM的自由回答质量。

关键设计：CAKE的关键设计包括：1) 问题难度设计：问题难度根据Bloom分类法的认知水平进行调整，确保能够区分不同能力的LLM。2) 主题选择：选择了五个云原生主题，包括容器化、微服务、服务网格等，覆盖了云原生架构的核心概念。3) 评估指标：采用了准确率和LLM-as-a-judge评分等多种评估指标，从不同角度评估LLM的云架构知识。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MCQ准确率在超过3B参数后趋于稳定，最佳模型达到99.2%。自由回答得分在所有认知水平上稳步提升。推理增强(+think)提高了自由回答的质量，而工具增强(+tool)降低了小型模型的性能。这些结果强调了评估格式对LLM架构知识衡量的重要性。

🎯 应用场景

该研究成果可应用于评估和选择适合特定云架构任务的大语言模型，指导LLM在软件架构设计中的应用，并促进LLM在云原生领域的进一步发展。CAKE基准测试可以帮助开发者更好地理解LLM的优势和局限性，从而更有效地利用LLM来构建和维护云原生应用。

📄 摘要（原文）

In today's software architecture, large language models (LLMs) serve as software architecture co-pilots. However, no benchmark currently exists to evaluate large language models' actual understanding of cloud-native software architecture. For this reason we present a benchmark called CAKE, which consists of 188 expert-validated questions covering four cognitive levels of Bloom's revised taxonomy -- recall, analyze, design, and implement -- and five cloud-native topics. Evaluation is conducted on 22 model configurations (0.5B--70B parameters) across four LLM families, using three-run majority voting for multiple-choice questions (MCQs) and LLM-as-a-judge scoring for free-responses (FR). Based on this evaluation, four notable findings were identified. First, MCQ accuracy plateaus above 3B parameters, with the best model reaching 99.2\%. Second, free-response scores scale steadily across all cognitive levels. Third, the two formats capture different facets of knowledge, as the MCQ accuracy approaches a ceiling while free-responses continue to differentiate models. Finally, reasoning augmentation (+think) improves free-response quality, while tool augmentation (+tool) degrades performance for small models. These results suggest that the evaluation format fundamentally shapes how we measure architectural knowledge in LLMs.

CAKE: Cloud Architecture Knowledge Evaluation of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理