Models Know Models Best: Evaluation via Model-Preferred Formats

📄 arXiv: 2601.22699v1 📥 PDF

作者: Joonhak Lee, Sungmok Jung, Jongyeon Park, Jaejin Lee

分类: cs.CL

发布日期: 2026-01-30


💡 一句话要点

提出基于模型偏好格式的动态评估方法,提升大语言模型zero-shot能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型评估 动态格式对齐 模型偏好学习 Zero-shot学习 推理能力 知识基准测试

📋 核心要点

  1. 现有方法在评估LLM时,采用固定格式,忽略了不同任务特性对模型表现的影响,导致评估结果不准确。
  2. 论文提出动态格式对齐策略,利用轻量级分类器学习模型对不同格式的偏好,并据此选择最佳格式。
  3. 实验表明,该方法在zero-shot设置下,显著提升了LLM在推理和知识基准测试中的准确率,更好地展现了模型能力。

📝 摘要(中文)

大型语言模型(LLMs)在多项选择任务上的表现,在基于符号和完形填空式评估格式之间存在显著差异。观察到的差异系统地归因于任务特征:自然语言续写受益于似然评分,而显式比较更适合基于符号的选择。这些趋势在各种基于解码器的LLM中是一致的,表明存在与模型无关的影响。为了解决这些不一致性,本文提出了一种动态格式对齐策略,该策略采用在潜在模型偏好信号上训练的轻量级分类器。与通常会降低性能的人工设计的启发式方法相比,该方法使用模型生成的信号来确定每个问题实例的最佳格式。所提出的方法在推理和知识基准测试中实现了显著且一致的zero-shot准确率提升,更好地揭示了模型的潜在能力。

🔬 方法详解

问题定义:现有的大语言模型评估方法,如多项选择题,通常采用固定的评估格式(例如,符号选择或完形填空)。然而,论文指出,不同类型的任务更适合不同的评估格式。例如,自然语言续写更适合完形填空,而显式比较更适合符号选择。因此,使用单一的评估格式可能会低估模型在某些任务上的真实能力。现有方法缺乏根据任务特性动态调整评估格式的能力,导致评估结果存在偏差。

核心思路:论文的核心思路是让模型自己“选择”最适合它的评估格式。具体来说,通过训练一个轻量级的分类器,使其能够根据模型在不同格式下的表现(即“模型偏好信号”)来预测哪个格式更适合当前的任务实例。这样,就可以针对每个任务实例动态地选择最佳的评估格式,从而更准确地评估模型的真实能力。

技术框架:整体框架包含以下几个主要步骤:1) 使用不同的评估格式(例如,符号选择和完形填空)对LLM进行评估;2) 收集模型在不同格式下的表现数据,作为模型偏好信号;3) 使用这些信号训练一个轻量级的分类器,使其能够预测哪个格式更适合当前的任务实例;4) 在评估新的任务实例时,使用训练好的分类器选择最佳的评估格式,并使用该格式评估LLM。

关键创新:论文的关键创新在于提出了一种基于模型偏好信号的动态格式对齐策略。与人工设计的启发式方法相比,该方法能够自动地学习模型对不同格式的偏好,并据此选择最佳的评估格式。这种方法能够更准确地评估模型的真实能力,并避免了人工设计的启发式方法可能引入的偏差。

关键设计:论文使用一个轻量级的分类器(具体结构未知)来预测最佳的评估格式。分类器的输入是模型在不同格式下的表现数据(例如,似然值或置信度得分),输出是最佳评估格式的预测结果。分类器的训练目标是最大化模型在所选格式下的表现。论文未明确说明损失函数和参数设置等细节,具体实现细节未知。

📊 实验亮点

实验结果表明,该方法在多个推理和知识基准测试中,显著提升了LLM的zero-shot准确率。具体提升幅度未知,但摘要中提到是“substantial and consistent improvements”。该方法优于人工设计的启发式方法,能够更好地揭示模型的潜在能力。

🎯 应用场景

该研究成果可应用于大语言模型的评估和选择,帮助用户更准确地了解不同模型的优缺点,并选择最适合自己需求的模型。此外,该方法还可以用于改进模型的训练过程,通过动态调整评估格式,引导模型学习更有效的知识和推理能力。该方法具有广泛的应用前景,有望推动大语言模型技术的进一步发展。

📄 摘要(原文)

Performance of Large Language Models (LLMs) on multiple-choice tasks differs markedly between symbol-based and cloze-style evaluation formats. The observed discrepancies are systematically attributable to task characteristics: natural language continuation benefits from likelihood scoring, whereas explicit comparison is better suited to symbol-based selection. These trends are consistent across various decoder-based LLMs, indicating model-agnostic effects. To address these inconsistencies, a dynamic format-alignment strategy is introduced that employs a lightweight classifier trained on latent model-preference signals. In contrast to human-designed heuristics, which often degrade performance, this approach uses model-generated signals to determine the optimal format for each problem instance. The proposed method achieves substantial and consistent improvements in zero-shot accuracy across reasoning and knowledge benchmarks, better revealing the models' latent capabilities.