A Third Paradigm for LLM Evaluation: Dialogue Game-Based Evaluation using clembench

📄 arXiv: 2507.08491 📥 PDF

作者: David Schlangen, Sherzod Hakimov, Chalamalasetti Kranti, Jonathan Jordan, Philipp Sadler

分类: cs.CL

发布日期: 2026-02-28


💡 一句话要点

提出clembench,一种基于对话游戏的LLM评估框架,易于扩展和复用。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM评估 对话游戏 基准测试 多轮交互 目标导向

📋 核心要点

  1. 现有LLM评估方法(基于参考和偏好)分别存在控制性不足和生态有效性不足的问题。
  2. clembench通过对话游戏提供了一种可控、可重复、目标导向的多轮交互评估范式。
  3. clembench自2023年起持续开发,最新版本优化了易用性,方便用户评估和扩展基准。

📝 摘要(中文)

目前评估大型语言模型(LLMs)主要有两种范式:基于参考的评估和基于偏好的评估。前者依赖于预定义的任务实例和参考答案,后者则依赖于用户驱动的交互和偏好选择。本文介绍了一种互补的第三种范式:基于对话游戏的评估。它结合了前两种方法的优点,在可控的多轮交互中,强调目标导向性。尽管该方法的有效性已得到多个项目的验证,但由于缺乏成熟、易于复用的实现,其应用受到限制。本文提出了clembench,自2023年以来持续开发,最新版本针对易用性进行了优化。本文描述了如何使用clembench来评估模型(使用提供的英语基准游戏实例),以及如何轻松地使用新的、定制的测试来扩展基准本身。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)评估方法主要分为两种:基于参考的评估和基于偏好的评估。基于参考的评估依赖于预定义的任务实例和参考答案,但缺乏生态有效性,难以模拟真实用户场景。基于偏好的评估则依赖于用户驱动的交互和偏好选择,虽然更贴近实际应用,但缺乏对测试内容的控制。这两种方法都存在一定的局限性,无法全面评估LLM的性能。

核心思路:本文的核心思路是引入一种基于对话游戏的评估范式,它结合了基于参考和基于偏好评估的优点。通过预先定义好的对话游戏规则和目标,可以实现对多轮交互过程的有效控制,同时又模拟了真实用户场景中的目标导向性对话。这种方法旨在提供一种更全面、更可控、更贴近实际应用的LLM评估方式。

技术框架:clembench的整体框架包含以下几个主要模块:1) 游戏定义模块:用于定义对话游戏的规则、目标和评估指标。2) 交互引擎模块:负责管理LLM与环境之间的多轮交互过程。3) 评估模块:根据预定义的评估指标,对LLM在游戏中的表现进行评估。4) 基准测试模块:提供了一系列预定义的对话游戏实例,用于评估LLM的通用能力。用户可以根据自己的需求,自定义新的游戏实例,扩展基准测试集。

关键创新:clembench的关键创新在于它提供了一种易于使用和扩展的对话游戏评估框架。与以往的对话游戏评估项目相比,clembench更加注重通用性和可复用性,用户可以轻松地使用clembench来评估自己的LLM,并根据自己的需求定制新的评估任务。此外,clembench还提供了一系列预定义的对话游戏实例,方便用户快速上手。

关键设计:clembench的关键设计包括:1) 灵活的游戏定义方式:用户可以使用简单的配置文件来定义对话游戏的规则、目标和评估指标。2) 可扩展的交互引擎:交互引擎支持多种LLM接口,方便用户集成不同的LLM模型。3) 标准化的评估指标:clembench提供了一系列常用的评估指标,如成功率、对话长度、用户满意度等,用户也可以自定义新的评估指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

clembench提供了一系列预定义的对话游戏实例,用户可以使用这些实例来评估自己的LLM。实验结果表明,clembench能够有效地评估LLM在多轮对话交互中的性能,并能够区分不同LLM模型的优劣。由于论文中没有给出具体的性能数据和对比基线,因此无法提供更详细的实验亮点。

🎯 应用场景

clembench可应用于各种需要多轮对话交互的LLM评估场景,例如智能客服、任务型对话系统、游戏AI等。它能够帮助研究人员和开发者更全面地了解LLM的性能,并针对性地进行优化。此外,clembench还可以用于比较不同LLM模型的优劣,为用户选择合适的LLM模型提供参考。

📄 摘要(原文)

There are currently two main paradigms for evaluating large language models (LLMs), reference-based evaluation and preference-based evaluation. The first, carried over from the evaluation of machine learning models in general, relies on pre-defined task instances, for which reference task executions are available. The second, best exemplified by the LM-arena, relies on (often self-selected) users bringing their own intents to a site that routes these to several models in parallel, among whose responses the user then selects their most preferred one. The former paradigm hence excels at control over what is tested, while the latter comes with higher ecological validity, testing actual use cases interactively. Recently, a third complementary paradigm has emerged that combines some of the strengths of these approaches, offering control over multi-turn, reference-free, repeatable interactions, while stressing goal-directedness: dialogue game based evaluation. While the utility of this approach has been shown by several projects, its adoption has been held back by the lack of a mature, easily re-usable implementation. In this paper, we present clembench, which has been in continuous development since 2023 and has in its latest release been optimized for ease of general use. We describe how it can be used to benchmark one's own models (using a provided set of benchmark game instances in English), as well as how easily the benchmark itself can be extended with new, tailor-made targeted tests.