DeepTest Tool Competition 2026: Benchmarking an LLM-Based Automotive Assistant
作者: Lev Sorokin, Ivan Vasilev, Samuele Pasini
分类: cs.AI
发布日期: 2026-04-14
备注: Published in the proceedings of the DeepTest workshop at the 48th International Conference on Software Engineering (ICSE) 2026
💡 一句话要点
DeepTest 2026:LLM汽车助手评测竞赛,评估故障检测工具
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM测试 汽车助手 信息检索 故障检测 基准测试
📋 核心要点
- 现有LLM汽车助手在处理用户输入时,可能无法准确提取并呈现汽车手册中的警告信息,存在安全隐患。
- 本次竞赛旨在通过基准测试,评估不同工具识别LLM汽车助手在警告信息检索方面缺陷的能力。
- 竞赛评估了各工具发现故障的有效性和生成测试用例的多样性,为LLM汽车助手的安全性和可靠性提供参考。
📝 摘要(中文)
本报告总结了在ICSE 2026的DeepTest研讨会上举办的首届大型语言模型(LLM)测试竞赛的结果。四个工具参与了对基于LLM的汽车手册信息检索应用程序的基准测试,目标是识别用户输入,在这些输入下,系统未能适当地提及手册中包含的警告信息。测试解决方案的评估基于它们在暴露故障方面的有效性以及发现的揭示故障的测试的多样性。我们报告了实验方法、参赛者和结果。
🔬 方法详解
问题定义:该论文关注的是如何有效地测试基于LLM的汽车助手,以确保其能够正确地从汽车手册中检索并呈现重要的警告信息。现有方法可能无法充分覆盖各种可能导致助手失效的用户输入,从而导致安全风险。
核心思路:核心思路是通过竞赛的方式,鼓励不同的团队开发工具,自动生成测试用例,并评估这些测试用例发现LLM汽车助手缺陷的能力。通过比较不同工具的性能,可以识别出更有效的测试方法。
技术框架:本次竞赛的技术框架主要包括以下几个部分:1)提供一个基于LLM的汽车助手作为测试对象;2)定义测试目标,即识别导致助手未能正确提及警告信息的用户输入;3)收集参赛队伍提交的测试工具;4)运行这些工具,生成测试用例;5)评估测试用例发现缺陷的有效性和多样性;6)根据评估结果对参赛队伍进行排名。
关键创新:关键创新在于将LLM测试问题转化为一个竞赛,鼓励社区参与,并提供了一个统一的评估框架。这种方法可以促进LLM测试技术的发展,并为实际应用提供参考。
关键设计:具体的参数设置、损失函数、网络结构等技术细节取决于参赛队伍开发的具体测试工具。评估指标包括发现缺陷的数量和测试用例的多样性。竞赛组织者提供测试环境和评估脚本,确保评估的公平性和可重复性。
🖼️ 关键图片
📊 实验亮点
本次竞赛评估了四个不同的LLM测试工具在发现汽车助手警告信息检索缺陷方面的能力。评估指标包括发现缺陷的数量和测试用例的多样性。具体性能数据和对比基线在报告中详细列出,为后续研究提供了参考。
🎯 应用场景
该研究成果可应用于汽车行业,用于评估和改进基于LLM的汽车助手,提高其安全性和可靠性。此外,该竞赛模式和评估方法也可推广到其他LLM应用领域,例如智能客服、医疗诊断等,促进LLM测试技术的发展和应用。
📄 摘要(原文)
This report summarizes the results of the first edition of the Large Language Model (LLM) Testing competition, held as part of the DeepTest workshop at ICSE 2026. Four tools competed in benchmarking an LLM-based car manual information retrieval application, with the objective of identifying user inputs for which the system fails to appropriately mention warnings contained in the manual. The testing solutions were evaluated based on their effectiveness in exposing failures and the diversity of the discovered failure-revealing tests. We report on the experimental methodology, the competitors, and the results.