Beyond Binary Correctness: Scaling Evaluation of Long-Horizon Agents on Subjective Enterprise Tasks

📄 arXiv: 2603.22744v1 📥 PDF

作者: Abhishek Chandwani, Ishan Gupta

分类: cs.AI

发布日期: 2026-03-24


💡 一句话要点

提出LH-Bench,用于评估长程Agent在主观企业任务中的表现,超越二元正确性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长程Agent评估 主观任务评估 企业任务 LLM评估 专家指导 人类偏好评估

📋 核心要点

  1. 现有方法在评估LLM时,主要关注客观可验证的任务,忽略了现实企业任务的主观性和长期性。
  2. LH-Bench通过专家指导的评分标准、ground-truth工件和人类偏好评估,实现了对主观企业任务的可靠评估。
  3. 实验表明,专家指导的评分标准比LLM生成的评分标准更可靠,且人类偏好判断验证了评估结果的有效性。

📝 摘要(中文)

大型语言模型在客观可验证的任务(如数学和编程)中表现出色,这些任务的评估可以简化为单元测试或单一正确答案。然而,现实世界的企业工作通常是主观的且依赖于上下文:成功取决于组织目标、用户意图以及跨长期的、多工具工作流程中产生的中间产物的质量。我们引入了LH-Bench,这是一种三支柱评估设计,它超越了二元正确性,对自主的、长程执行的主观企业任务进行评分。这三个支柱是:(i)专家指导的评分标准,为LLM评审员提供评分主观工作所需的领域背景;(ii)精心策划的ground-truth工件,可以实现逐步奖励信号(例如,内容任务的章节级注释);(iii)用于收敛验证的成对人类偏好评估。我们表明,领域专家编写的评分标准比LLM编写的评分标准提供更可靠的评估信号(kappa = 0.60 vs. 0.46),并且人类偏好判断证实了相同的高层分离(p < 0.05),这证明了专家指导的评估可以在不牺牲可靠性的情况下进行扩展。我们发布了公共数据集,并报告了在两个环境中的结果:Figma-to-code(针对Figma API的33个真实.fig任务,通过MCP)和程序化内容(包含41门课程,包括在服务于30多个日常用户的课程平台上单独评估的183个章节)。

🔬 方法详解

问题定义:现有的大型语言模型评估方法主要集中在客观可验证的任务上,例如数学和编程。这些任务的评估通常简化为单元测试或单一正确答案。然而,现实世界的企业任务通常是主观的,并且高度依赖于上下文,例如组织目标、用户意图以及在长期多工具工作流程中产生的中间产物的质量。因此,如何有效地评估LLM在这些主观、长期的企业任务中的表现是一个关键问题。现有方法无法捕捉到这些任务的复杂性和细微差别,导致评估结果不准确。

核心思路:LH-Bench的核心思路是通过引入专家知识和人类反馈,来克服传统评估方法在主观企业任务中的局限性。它采用三支柱评估设计,包括专家指导的评分标准、ground-truth工件和成对人类偏好评估。专家指导的评分标准为LLM评审员提供领域背景知识,帮助他们更准确地评估主观工作。Ground-truth工件提供逐步奖励信号,鼓励模型生成高质量的中间产物。成对人类偏好评估用于验证评估结果的可靠性。

技术框架:LH-Bench的评估框架包含以下几个主要阶段:1) 任务定义:明确需要评估的企业任务,例如Figma-to-code和程序化内容生成。2) 数据收集:收集用于评估的真实数据,包括Figma文件、课程内容等。3) 评分标准制定:由领域专家制定详细的评分标准,明确评估指标和评分规则。4) 模型执行:让待评估的LLM执行指定的企业任务。5) 自动评估:使用LLM评审员和ground-truth工件对模型生成的中间产物进行自动评估。6) 人工评估:进行成对人类偏好评估,验证自动评估结果的可靠性。

关键创新:LH-Bench最重要的技术创新点在于其三支柱评估设计,它将专家知识、ground-truth工件和人类反馈相结合,实现了对主观企业任务的可靠评估。与传统的二元正确性评估方法相比,LH-Bench能够更全面地捕捉到企业任务的复杂性和细微差别,从而提供更准确的评估结果。此外,LH-Bench还提出了一种新的评估流程,该流程可以有效地利用LLM评审员和人类评审员的优势,从而提高评估效率和可靠性。

关键设计:在LH-Bench中,专家指导的评分标准是关键的设计要素。这些评分标准由领域专家制定,明确了评估指标和评分规则,并为LLM评审员提供了必要的领域背景知识。Ground-truth工件的设计也至关重要,它们提供了逐步奖励信号,鼓励模型生成高质量的中间产物。此外,成对人类偏好评估的设计也需要仔细考虑,例如如何选择合适的评审员、如何设计评估界面等。论文中没有明确提及具体的参数设置、损失函数或网络结构,因为LH-Bench主要关注评估方法的设计,而不是模型的训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,专家指导的评分标准比LLM生成的评分标准提供更可靠的评估信号(kappa = 0.60 vs. 0.46),并且人类偏好判断证实了相同的高层分离(p < 0.05)。这些结果表明,LH-Bench能够有效地评估LLM在主观企业任务中的表现,并且其评估结果与人类的判断高度一致。

🎯 应用场景

LH-Bench可应用于各种需要评估LLM在主观企业任务中表现的场景,例如自动化代码生成、内容创作、客户服务等。该研究的实际价值在于提供了一种更可靠、更全面的评估方法,帮助企业更好地了解LLM的能力,并选择合适的LLM来完成特定的任务。未来,LH-Bench可以进一步扩展到更多的企业任务和领域,并与其他评估方法相结合,从而构建更完善的LLM评估体系。

📄 摘要(原文)

Large language models excel on objectively verifiable tasks such as math and programming, where evaluation reduces to unit tests or a single correct answer. In contrast, real-world enterprise work is often subjective and context-dependent: success hinges on organizational goals, user intent, and the quality of intermediate artifacts produced across long, multi-tool workflows. We introduce LH-Bench, a three-pillar evaluation design that moves beyond binary correctness to score autonomous, long-horizon execution on subjective enterprise tasks. The pillars are: (i) expert-grounded rubrics that give LLM judges the domain context needed to score subjective work, (ii) curated ground-truth artifacts that enable stepwise reward signals (e.g., chapter-level annotation for content tasks), and (iii) pairwise human preference evaluation for convergent validation. We show that domain-authored rubrics provide substantially more reliable evaluation signals than LLM-authored rubrics (kappa = 0.60 vs. 0.46), and that human preference judgments confirm the same top-tier separation (p < 0.05), evidence that expert-grounded evaluation can scale without sacrificing reliability. We release public datasets and report results on two environments: Figma-to-code (33 real .fig tasks against the Figma API via MCP) and Programmatic content (41 courses comprising 183 individually-evaluated chapters on a course platform serving 30+ daily users).