Cross-Entropy Games for Language Models: From Implicit Knowledge to General Capability Measures
作者: Clément Hongler, Andrew Emil
分类: cs.AI, cs.CL, cs.GT, cs.IT, cs.NE
发布日期: 2025-06-07 (更新: 2025-06-22)
备注: 42 pages, 16 figures
💡 一句话要点
提出交叉熵游戏以衡量语言模型的通用能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 交叉熵游戏 大型语言模型 能力评估 自然语言处理 博弈论
📋 核心要点
- 现有方法在衡量大型语言模型的通用能力时面临挑战,缺乏有效的任务形式化与评估标准。
- 本文提出交叉熵游戏(Xent Games),将多种任务形式化为基于LLM测度的游戏,以评估模型能力。
- 通过构建Xent游戏测度,本文为LLM能力提供了新的基准,推动了对模型能力的系统性评估。
📝 摘要(中文)
大型语言模型(LLMs)定义了文本的概率测度。通过探讨LLM隐含知识的定义及其算法含义,本文提出了一系列超越生成采样的任务,包括摘要、反事实思维、异常检测等。这些任务被形式化为基于LLM测度的游戏,称为交叉熵(Xent)游戏。Xent游戏可为单人或多人,涉及交叉熵分数和约束,并可用简单的计算图和程序表达。我们展示了Xent游戏空间的丰富性,并讨论了如何利用该空间来衡量LLM的能力,最终构建了Xent游戏测度,作为能力基准,解决了测量通用能力的无界范围问题。
🔬 方法详解
问题定义:本文旨在解决如何有效衡量大型语言模型(LLMs)的通用能力,现有方法在任务形式化和评估标准上存在不足。
核心思路:提出交叉熵游戏(Xent Games),将多种任务(如摘要、反事实思维等)形式化为基于LLM测度的游戏,以便更全面地评估模型能力。
技术框架:整体架构包括任务形式化、交叉熵分数计算和约束设置,构建简单的计算图和程序来实现这些游戏。
关键创新:Xent游戏的构建基于基本的博弈论一致性公理,提供了一种新的能力评估框架,区别于传统的生成模型评估方法。
关键设计:设计了交叉熵分数和约束,构建了有限的Xent游戏家族作为能力基准,并采用进化动态的思想来探索无界范围问题。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Xent游戏能够有效地评估LLMs的能力,提供了比现有基准更全面的能力测量。具体性能数据和对比基线尚未披露,提升幅度未知。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、智能对话系统和自动内容生成等。通过提供新的能力评估标准,研究可帮助开发更强大的语言模型,推动AI在多种任务中的应用与发展。
📄 摘要(原文)
Large Language Models (LLMs) define probability measures on text. By considering the implicit knowledge question of what it means for an LLM to know such a measure and what it entails algorithmically, we are naturally led to formulate a series of tasks that go beyond generative sampling, involving forms of summarization, counterfactual thinking, anomaly detection, originality search, reverse prompting, debating, creative solving, etc. These tasks can be formulated as games based on LLM measures, which we call Cross-Entropy (Xent) Games. Xent Games can be single-player or multi-player. They involve cross-entropy scores and cross-entropy constraints, and can be expressed as simple computational graphs and programs. We show the Xent Game space is large enough to contain a wealth of interesting examples, while being constructible from basic game-theoretic consistency axioms. We then discuss how the Xent Game space can be used to measure the abilities of LLMs. This leads to the construction of Xent Game measures: finite families of Xent Games that can be used as capability benchmarks, built from a given scope, by extracting a covering measure. To address the unbounded scope problem associated with the challenge of measuring general abilities, we propose to explore the space of Xent Games in a coherent fashion, using ideas inspired by evolutionary dynamics.