Clotho: Measuring Task-Specific Pre-Generation Test Adequacy for LLM Inputs

📄 arXiv: 2509.17314v2 📥 PDF

作者: Juyeon Yoon, Somin Kim, Robert Feldt, Shin Yoo

分类: cs.SE, cs.LG

发布日期: 2025-09-22 (更新: 2025-09-23)


💡 一句话要点

提出CLOTHO,通过预生成测试充分性评估LLM输入的难度,提升测试效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型测试 预生成评估 输入充分性 高斯混合模型 自适应采样

📋 核心要点

  1. 现有LLM测试方法依赖人工评估或完整推理,成本高昂,且缺乏针对特定任务的输入充分性评估。
  2. CLOTHO通过分析LLM隐藏状态,预生成地评估输入难度,并使用GMM自适应采样最具信息量的样本进行标注。
  3. 实验表明,CLOTHO能有效预测LLM在八个基准任务上的失败情况,且学习到的充分性分数可迁移至专有模型。

📝 摘要(中文)

软件越来越多地依赖于大型语言模型(LLM)涌现的能力,从自然语言理解到程序分析和生成。然而,针对特定任务测试LLM仍然困难且成本高昂:许多prompt缺乏标准答案,迫使依赖人工判断,而现有的不确定性和充分性度量通常需要完全推理。一个关键挑战是以反映任务需求的方式评估输入充分性,理想情况下甚至在生成任何输出之前。我们引入CLOTHO,一种任务特定的、预生成充分性度量,它直接从LLM的隐藏状态估计输入难度。给定特定任务的大量未标记输入,CLOTHO使用高斯混合模型(GMM)自适应地采样最具信息量的样本进行人工标记。基于这个参考集,GMM可以根据失败的可能性对未见输入进行排序。在对八个基准任务和三个开源LLM的实证评估中,CLOTHO能够以0.716的ROC-AUC预测失败,在标记平均仅占输入5.4%的参考集后即可实现。它在不生成任何输出的情况下完成此操作,从而降低了与现有不确定性度量相比的成本。CLOTHO和后生成不确定性度量的比较表明,这两种方法相互补充。至关重要的是,我们表明从开源LLM学习的充分性分数可以有效地转移到专有模型,从而扩展了该方法的适用性。在优先考虑专有模型的测试输入时,与随机优先级排序相比,CLOTHO将100个输入中失败输入的平均数量从18.7个增加到42.5个。

🔬 方法详解

问题定义:现有LLM的测试方法,尤其是在特定任务上的测试,面临着缺乏ground truth、依赖人工判断以及计算成本高等问题。现有的不确定性或充分性度量通常需要在LLM完成推理后才能进行,无法在生成输出前评估输入质量,导致测试效率低下。因此,如何高效且低成本地评估LLM输入的质量,成为了一个亟待解决的问题。

核心思路:CLOTHO的核心思路是利用LLM在处理输入时产生的隐藏状态,这些隐藏状态包含了LLM对输入的理解和处理过程的信息。通过分析这些隐藏状态,可以预先评估输入的难度和可能导致失败的风险,而无需实际生成输出。这种预生成评估的方式可以显著降低测试成本,并提高测试效率。

技术框架:CLOTHO的整体框架包括以下几个主要步骤:1) 收集大量未标记的输入样本;2) 使用LLM处理这些输入,并提取相应的隐藏状态;3) 使用高斯混合模型(GMM)对隐藏状态进行建模,以捕捉不同输入样本的分布特征;4) 基于GMM,自适应地选择最具信息量的样本进行人工标注,构建参考集;5) 使用参考集训练GMM,使其能够预测未见输入的失败可能性;6) 根据GMM的预测结果,对输入进行排序,优先测试可能导致失败的输入。

关键创新:CLOTHO的关键创新在于其预生成评估方法,它避免了传统方法中需要完整推理的步骤,从而显著降低了测试成本。此外,CLOTHO还采用了自适应采样策略,通过GMM选择最具信息量的样本进行标注,进一步提高了测试效率。另一个创新点是,CLOTHO学习到的充分性分数可以有效地迁移到专有模型,这大大扩展了该方法的适用范围。

关键设计:CLOTHO的关键设计包括:1) 隐藏状态的提取方式,例如选择LLM的哪一层或哪些层的隐藏状态;2) GMM的参数设置,例如混合成分的数量、初始化方法等;3) 自适应采样策略的具体实现,例如选择哪些指标来衡量样本的信息量;4) 损失函数的设计,用于训练GMM,使其能够准确预测输入的失败可能性。论文中具体的技术细节(如隐藏状态提取层、GMM参数等)未知,需要查阅原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CLOTHO在八个基准任务上能够以0.716的ROC-AUC预测LLM的失败情况,且仅需标注平均5.4%的输入样本。与随机优先级排序相比,CLOTHO在专有模型上将失败输入的平均数量从18.7个增加到42.5个(总共100个输入),显著提高了测试效率。这些结果表明CLOTHO是一种有效且高效的LLM测试方法。

🎯 应用场景

CLOTHO可应用于各种LLM相关的软件测试场景,例如自然语言理解、程序分析和生成等。它可以帮助开发者更高效地发现LLM的潜在问题,提高软件质量。此外,CLOTHO还可以用于评估不同LLM在特定任务上的性能,为模型选择提供依据。该研究的成果有助于推动LLM在软件工程领域的应用。

📄 摘要(原文)

Software increasingly relies on the emergent capabilities of Large Language Models (LLMs), from natural language understanding to program analysis and generation. Yet testing them on specific tasks remains difficult and costly: many prompts lack ground truth, forcing reliance on human judgment, while existing uncertainty and adequacy measures typically require full inference. A key challenge is to assess input adequacy in a way that reflects the demands of the task, ideally before even generating any output. We introduce CLOTHO, a task-specific, pre-generation adequacy measure that estimates input difficulty directly from hidden LLM states. Given a large pool of unlabelled inputs for a specific task, CLOTHO uses a Gaussian Mixture Model (GMM) to adaptively sample the most informative cases for human labelling. Based on this reference set the GMM can then rank unseen inputs by their likelihood of failure. In our empirical evaluation across eight benchmark tasks and three open-weight LLMs, CLOTHO can predict failures with a ROC-AUC of 0.716, after labelling reference sets that are on average only 5.4% of inputs. It does so without generating any outputs, thereby reducing costs compared to existing uncertainty measures. Comparison of CLOTHO and post-generation uncertainty measures shows that the two approaches complement each other. Crucially, we show that adequacy scores learnt from open-weight LLMs transfer effectively to proprietary models, extending the applicability of the approach. When prioritising test inputs for proprietary models, CLOTHO increases the average number of failing inputs from 18.7 to 42.5 out of 100, compared to random prioritisation.