A Third Paradigm for LLM Evaluation: Dialogue Game-Based Evaluation using clembench
作者: David Schlangen, Sherzod Hakimov, Jonathan Jordan, Philipp Sadler
分类: cs.CL
发布日期: 2025-07-11
备注: All code required to run the benchmark, as well as extensive documentation, is available at https://github.com/clembench/clembench
💡 一句话要点
提出clembench,一个基于对话游戏的LLM评估框架,易于扩展和复用。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型评估 对话游戏 基准测试 人机交互 自然语言处理
📋 核心要点
- 现有LLM评估方法(基于参考答案和基于偏好)在控制性和生态有效性之间存在权衡,难以兼顾。
- 论文提出基于对话游戏的评估范式,通过目标导向的多轮交互,实现可控、可重复且更贴近实际应用的评估。
- clembench框架提供了一套易于使用和扩展的工具,方便研究者构建和运行对话游戏,评估LLM的性能。
📝 摘要(中文)
目前评估大型语言模型(LLM)主要有两种范式:基于参考答案的评估和基于偏好的评估。前者依赖于预定义的任务实例和参考答案,后者则依赖于用户将自己的意图输入系统,系统将这些意图路由到多个模型,用户从中选择最满意的回复。前者擅长控制测试内容,后者具有更高的生态有效性,能测试实际的交互用例。最近出现了一种结合两者优势的第三种范式:基于对话游戏的评估。它能控制多轮、无参考答案、可重复的交互,同时强调目标导向性。虽然一些项目已经展示了这种方法的效用,但缺乏成熟、易于复用的实现阻碍了它的普及。本文介绍了clembench,该框架自2023年以来一直在持续开发,最新版本针对易用性进行了优化。我们描述了如何使用它来评估自己的模型(使用提供的英语基准游戏实例),以及如何轻松地使用新的、定制的针对性测试来扩展基准本身。
🔬 方法详解
问题定义:现有LLM的评估方法存在局限性。基于参考答案的评估方法难以覆盖LLM生成的多样性,而基于偏好的评估方法缺乏对测试内容的控制。因此,需要一种既能控制测试内容,又能模拟真实交互场景的评估方法。
核心思路:论文的核心思路是利用对话游戏来评估LLM。对话游戏是一种目标导向的多轮交互,可以模拟真实的应用场景,同时允许研究者控制交互过程和评估指标。通过设计不同的对话游戏,可以针对LLM的特定能力进行评估。
技术框架:clembench框架包含以下主要模块:游戏定义模块、交互引擎模块和评估模块。游戏定义模块允许用户定义对话游戏的规则和目标。交互引擎模块负责管理LLM与用户之间的交互。评估模块根据预定义的指标评估LLM在游戏中的表现。整个流程是:首先定义一个对话游戏,然后LLM参与到这个游戏中,最后根据LLM在游戏中的表现进行评估。
关键创新:clembench的关键创新在于提供了一个易于使用和扩展的对话游戏评估框架。它允许研究者快速构建和运行对话游戏,并针对LLM的特定能力进行评估。与现有的评估方法相比,clembench更具灵活性和可控性。
关键设计:clembench的关键设计包括:(1) 使用YAML格式定义对话游戏,方便用户自定义游戏规则和目标;(2) 提供了一套预定义的评估指标,例如成功率、对话长度和用户满意度;(3) 支持多种LLM接口,方便用户集成不同的LLM模型。
🖼️ 关键图片
📊 实验亮点
论文介绍了clembench框架,并提供了一套基准对话游戏实例。通过这些实例,研究者可以评估自己的LLM模型,并与其他模型进行比较。虽然论文没有提供具体的性能数据,但强调了clembench的易用性和可扩展性,以及其在LLM评估方面的潜力。
🎯 应用场景
clembench可用于评估各种对话型LLM,例如聊天机器人、任务型对话系统和虚拟助手。它可以帮助开发者选择合适的LLM模型,并优化模型的性能。此外,clembench还可以用于研究LLM的对话能力,例如理解用户意图、生成自然语言回复和解决复杂问题。
📄 摘要(原文)
There are currently two main paradigms for evaluating large language models (LLMs), reference-based evaluation and preference-based evaluation. The first, carried over from the evaluation of machine learning models in general, relies on pre-defined task instances, for which reference task executions are available. The second, best exemplified by the LM-arena, relies on (often self-selected) users bringing their own intents to a site that routes these to several models in parallel, among whose responses the user then selects their most preferred one. The former paradigm hence excels at control over what is tested, while the latter comes with higher ecological validity, testing actual use cases interactively. Recently, a third complementary paradigm has emerged that combines some of the strengths of these approaches, offering control over multi-turn, reference-free, repeatable interactions, while stressing goal-directedness: dialogue game based evaluation. While the utility of this approach has been shown by several projects, its adoption has been held back by the lack of a mature, easily re-usable implementation. In this paper, we present clembench, which has been in continuous development since 2023 and has in its latest release been optimized for ease of general use. We describe how it can be used to benchmark one's own models (using a provided set of benchmark game instances in English), as well as how easily the benchmark itself can be extended with new, tailor-made targeted tests.