Evalet: Evaluating Large Language Models by Fragmenting Outputs into Functions
作者: Tae Soo Kim, Heechan Lee, Yoonjoo Lee, Joseph Seering, Juho Kim
分类: cs.HC, cs.AI, cs.CL
发布日期: 2025-09-14 (更新: 2026-02-03)
备注: The first two authors hold equal contribution. Conditionally accepted to CHI 2026
💡 一句话要点
Evalet:通过将LLM输出分解为功能片段来评估其性能,提升评估可解释性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型评估 可解释性AI 功能片段化 人机交互 LLM-as-a-Judge
📋 核心要点
- 现有“LLM-as-a-Judge”方法提供整体评分,缺乏对评估过程的细粒度解释,难以理解评估依据。
- Evalet提出功能片段化方法,将LLM输出分解为片段,并分析每个片段在评估中的作用,提升评估透明度。
- 用户研究表明,Evalet能帮助用户识别更多评估错位,校准对LLM评估的信任,并发现模型输出中的可操作问题。
📝 摘要(中文)
从业者日益依赖大型语言模型(LLMs)来评估生成式AI的输出,这种方法被称为“LLM-as-a-Judge”。然而,这些方法产生的是整体评分,掩盖了哪些特定元素影响了评估结果。我们提出了功能片段化,一种将每个输出分解为关键片段并解释每个片段相对于评估标准所服务的修辞功能的方法——突出显示感兴趣的元素,并揭示它们如何实现或阻碍用户目标。我们在Evalet中实例化了这种方法,Evalet是一个交互式系统,可视化跨多个输出的片段级功能,以支持评估的检查、评级和比较。一项用户研究(N=10)发现,虽然从业者难以验证整体评分,但我们的方法帮助他们识别出多48%的评估错位。这有助于他们校准对LLM评估的信任,并依靠它们来发现模型输出中更具可操作性的问题。我们的工作将LLM评估从定量分数转向对模型行为的定性、细粒度分析。
🔬 方法详解
问题定义:现有的大型语言模型评估方法,特别是“LLM-as-a-Judge”方法,通常只提供一个整体的评估分数,而缺乏对评估过程的细粒度解释。这使得用户难以理解LLM做出特定评估的原因,也难以判断评估结果是否合理和可靠。现有方法的痛点在于缺乏透明度和可解释性,难以发现评估中的偏差和错误。
核心思路:Evalet的核心思路是将LLM的输出分解为更小的、具有独立功能的片段,然后分析每个片段在评估过程中所起的作用。通过这种“功能片段化”的方法,Evalet能够揭示LLM评估的内部机制,让用户更好地理解评估结果,并发现潜在的问题。这种设计旨在提高LLM评估的可解释性和可信度。
技术框架:Evalet包含以下几个主要步骤:1) 输出分解:将LLM的输出分解为多个片段。2) 功能标注:为每个片段标注其在评估过程中所起的作用(例如,支持某个观点、反对某个观点、提供背景信息等)。3) 可视化:将片段及其功能以可视化的方式呈现给用户,方便用户进行检查、评级和比较。4) 交互式分析:提供交互式工具,帮助用户深入分析评估结果,发现潜在的偏差和错误。
关键创新:Evalet最重要的技术创新点在于“功能片段化”的概念。与传统的整体评估方法不同,Evalet将评估过程分解为多个可解释的步骤,从而提高了评估的透明度和可信度。这种方法能够帮助用户更好地理解LLM的评估行为,并发现潜在的问题。
关键设计:Evalet的关键设计包括:1) 如何有效地将LLM输出分解为有意义的片段;2) 如何准确地标注每个片段的功能;3) 如何设计直观的可视化界面,方便用户理解和分析评估结果;4) 如何提供有效的交互式工具,帮助用户发现潜在的偏差和错误。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
用户研究表明,使用Evalet后,用户能够识别出比传统方法多48%的评估错位。这表明Evalet能够显著提高用户对LLM评估结果的理解和信任。此外,用户还发现Evalet能够帮助他们发现模型输出中更具可操作性的问题,从而更好地改进模型的设计。这些结果表明Evalet在LLM评估方面具有显著的优势。
🎯 应用场景
Evalet可应用于各种生成式AI模型的评估,例如文本生成、图像生成、代码生成等。它能够帮助开发者更好地理解模型的行为,发现潜在的问题,并改进模型的设计。此外,Evalet还可以用于评估LLM自身的性能,例如评估LLM在回答问题、生成摘要、翻译文本等任务中的表现。该研究有助于提高AI系统的可靠性和可信度,促进AI技术在各个领域的应用。
📄 摘要(原文)
Practitioners increasingly rely on Large Language Models (LLMs) to evaluate generative AI outputs through "LLM-as-a-Judge" approaches. However, these methods produce holistic scores that obscure which specific elements influenced the assessments. We propose functional fragmentation, a method that dissects each output into key fragments and interprets the rhetoric functions that each fragment serves relative to evaluation criteria -- surfacing the elements of interest and revealing how they fulfill or hinder user goals. We instantiate this approach in Evalet, an interactive system that visualizes fragment-level functions across many outputs to support inspection, rating, and comparison of evaluations. A user study (N=10) found that, while practitioners struggled to validate holistic scores, our approach helped them identify 48% more evaluation misalignments. This helped them calibrate trust in LLM evaluations and rely on them to find more actionable issues in model outputs. Our work shifts LLM evaluation from quantitative scores toward qualitative, fine-grained analysis of model behavior.