LLM Evaluation as Tensor Completion: Low Rank Structure and Semiparametric Efficiency

📄 arXiv: 2604.05460v1 📥 PDF

作者: Jiachun Li, David Simchi-Levi, Will Wei Sun

分类: stat.ME, cs.AI

发布日期: 2026-04-07


💡 一句话要点

将LLM评估视为张量补全问题,提出低秩结构和半参数有效性分析方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM评估 张量补全 低秩结构 半参数推断 不确定性量化

📋 核心要点

  1. 现有LLM评估方法依赖人工判断,数据噪声大且稀疏,缺乏有效的不确定性量化。
  2. 论文将LLM评估建模为低秩张量补全问题,利用半参数推断方法进行分析。
  3. 论文提出了一种得分白化方法,均衡Fisher信息,提升了推断的稳定性和准确性。

📝 摘要(中文)

大型语言模型(LLM)评估平台越来越依赖于成对的人工判断。这些数据具有噪声大、稀疏和非均匀的特点,但排行榜的报告却缺乏不确定性量化。本文将此问题研究为在Bradley-Terry-Luce类型模型下,通过成对比较观察到的低秩潜在得分张量的半参数推断。这使得LLM评估进入了一个新的张量补全设置,具有结构化观测、非均匀采样和成对对比。我们的目标是平滑泛函ψ(T⋆),包括诸如能力差距之类的线性估计量和诸如获胜概率之类的非线性估计量。我们推导了低秩切空间上的信息算子、有效影响函数和半参数效率界,然后构建了一个具有渐近正态性的一次去偏估计器。一个核心挑战是信息算子是各向异性的,并且不与切空间投影交换,从而产生各向同性模型中不存在的瓶颈。我们引入了一种得分白化方法,该方法均衡了局部Fisher信息,并在最佳样本复杂度尺度上恢复了稳定的推断。我们的结果为LLM评估中的不确定性量化提供了一个原则性框架,更广泛地适用于从成对数据中对低秩结构进行推断。

🔬 方法详解

问题定义:现有LLM评估平台依赖于成对的人工判断,但这些数据通常是噪声的、稀疏的且非均匀分布的。现有的排行榜报告通常缺乏对不确定性的量化,这使得评估结果的可靠性受到质疑。因此,需要一种更严谨的方法来处理这些数据,并提供可靠的不确定性估计。

核心思路:论文的核心思路是将LLM的评估问题建模为一个低秩张量补全问题。具体来说,假设LLM的潜在得分可以用一个低秩张量表示,而观测到的成对比较数据可以看作是对这个低秩张量的部分观测。通过利用低秩结构的先验知识,可以有效地补全缺失的数据,并推断出LLM的真实得分。此外,论文还采用了半参数推断的方法,以处理观测数据的非均匀性和噪声。

技术框架:论文的技术框架主要包括以下几个步骤:1) 将LLM评估问题建模为低秩张量补全问题;2) 基于Bradley-Terry-Luce模型建立成对比较数据的似然函数;3) 推导低秩切空间上的信息算子和有效影响函数;4) 构建一次去偏估计器,并证明其渐近正态性;5) 提出得分白化方法,均衡局部Fisher信息。

关键创新:论文的关键创新在于:1) 将LLM评估问题建模为低秩张量补全问题,为LLM评估提供了一个新的视角;2) 提出了得分白化方法,解决了信息算子各向异性带来的问题,提高了推断的稳定性和准确性;3) 推导了半参数效率界,为评估估计器的性能提供了理论基础。

关键设计:论文的关键设计包括:1) 使用Bradley-Terry-Luce模型来建模成对比较数据,该模型能够有效地捕捉LLM之间的相对优劣关系;2) 采用低秩张量分解来表示LLM的潜在得分,这能够有效地利用LLM之间的相关性;3) 设计了得分白化方法,通过对得分进行线性变换,使得局部Fisher信息更加均匀,从而提高了推断的稳定性。

📊 实验亮点

论文提出了得分白化方法,解决了信息算子各向异性带来的问题,提高了推断的稳定性和准确性。通过实验验证,该方法能够在最佳样本复杂度尺度上恢复稳定的推断,并提供更可靠的不确定性量化。该方法为LLM评估提供了一个原则性的框架。

🎯 应用场景

该研究成果可应用于各种LLM评估平台,提供更准确、可靠的LLM性能评估和排名。通过量化评估结果的不确定性,可以帮助用户更好地理解LLM的优缺点,并做出更明智的选择。此外,该方法还可以推广到其他涉及成对比较数据的低秩结构推断问题,例如推荐系统、社交网络分析等。

📄 摘要(原文)

Large language model (LLM) evaluation platforms increasingly rely on pairwise human judgments. These data are noisy, sparse, and non-uniform, yet leaderboards are reported with limited uncertainty quantification. We study this as semiparametric inference for a low-rank latent score tensor observed through pairwise comparisons under Bradley-Terry-Luce-type models. This places LLM evaluation in a new tensor completion setting with structured observations, non-uniform sampling, and pairwise contrasts. Our target is a smooth functional $ψ(T^\star)$, including linear estimands such as ability gaps and nonlinear ones such as win probabilities. We derive the information operator on the low-rank tangent space, the efficient influence function, and the semiparametric efficiency bound, then construct a one-step debiased estimator with asymptotic normality. A central challenge is that the information operator is anisotropic and does not commute with the tangent-space projection, creating a bottleneck absent from isotropic models. We introduce a score-whitening method that equalizes local Fisher information and restores stable inference at the optimal sample-complexity scale. Our results provide a principled framework for uncertainty quantification in LLM evaluation and more broadly for inference on low-rank structures from pairwise data.