Beyond Binary Correctness: Scaling Evaluation of Long-Horizon Agents on Subjective Enterprise Tasks

作者: Abhishek Chandwani, Ishan Gupta

分类: cs.AI

发布日期: 2026-03-24

💡 一句话要点

提出LH-Bench，用于评估长程Agent在主观企业任务中的表现，超越二元正确性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长程Agent评估 主观任务评估 企业任务 LLM评估 专家指导 人类偏好评估

📋 核心要点

现有方法在评估LLM时，主要关注客观可验证的任务，忽略了现实企业任务的主观性和长期性。
LH-Bench通过专家指导的评分标准、ground-truth工件和人类偏好评估，实现了对主观企业任务的可靠评估。
实验表明，专家指导的评分标准比LLM生成的评分标准更可靠，且人类偏好判断验证了评估结果的有效性。

📝 摘要（中文）

大型语言模型在客观可验证的任务（如数学和编程）中表现出色，这些任务的评估可以简化为单元测试或单一正确答案。然而，现实世界的企业工作通常是主观的且依赖于上下文：成功取决于组织目标、用户意图以及跨长期的、多工具工作流程中产生的中间产物的质量。我们引入了LH-Bench，这是一种三支柱评估设计，它超越了二元正确性，对自主的、长程执行的主观企业任务进行评分。这三个支柱是：（i）专家指导的评分标准，为LLM评审员提供评分主观工作所需的领域背景；（ii）精心策划的ground-truth工件，可以实现逐步奖励信号（例如，内容任务的章节级注释）；（iii）用于收敛验证的成对人类偏好评估。我们表明，领域专家编写的评分标准比LLM编写的评分标准提供更可靠的评估信号（kappa = 0.60 vs. 0.46），并且人类偏好判断证实了相同的高层分离（p < 0.05），这证明了专家指导的评估可以在不牺牲可靠性的情况下进行扩展。我们发布了公共数据集，并报告了在两个环境中的结果：Figma-to-code（针对Figma API的33个真实.fig任务，通过MCP）和程序化内容（包含41门课程，包括在服务于30多个日常用户的课程平台上单独评估的183个章节）。

🔬 方法详解

问题定义：现有的大型语言模型评估方法主要集中在客观可验证的任务上，例如数学和编程。这些任务的评估通常简化为单元测试或单一正确答案。然而，现实世界的企业任务通常是主观的，并且高度依赖于上下文，例如组织目标、用户意图以及在长期多工具工作流程中产生的中间产物的质量。因此，如何有效地评估LLM在这些主观、长期的企业任务中的表现是一个关键问题。现有方法无法捕捉到这些任务的复杂性和细微差别，导致评估结果不准确。

核心思路：LH-Bench的核心思路是通过引入专家知识和人类反馈，来克服传统评估方法在主观企业任务中的局限性。它采用三支柱评估设计，包括专家指导的评分标准、ground-truth工件和成对人类偏好评估。专家指导的评分标准为LLM评审员提供领域背景知识，帮助他们更准确地评估主观工作。Ground-truth工件提供逐步奖励信号，鼓励模型生成高质量的中间产物。成对人类偏好评估用于验证评估结果的可靠性。

技术框架：LH-Bench的评估框架包含以下几个主要阶段：1) 任务定义：明确需要评估的企业任务，例如Figma-to-code和程序化内容生成。2) 数据收集：收集用于评估的真实数据，包括Figma文件、课程内容等。3) 评分标准制定：由领域专家制定详细的评分标准，明确评估指标和评分规则。4) 模型执行：让待评估的LLM执行指定的企业任务。5) 自动评估：使用LLM评审员和ground-truth工件对模型生成的中间产物进行自动评估。6) 人工评估：进行成对人类偏好评估，验证自动评估结果的可靠性。

关键创新：LH-Bench最重要的技术创新点在于其三支柱评估设计，它将专家知识、ground-truth工件和人类反馈相结合，实现了对主观企业任务的可靠评估。与传统的二元正确性评估方法相比，LH-Bench能够更全面地捕捉到企业任务的复杂性和细微差别，从而提供更准确的评估结果。此外，LH-Bench还提出了一种新的评估流程，该流程可以有效地利用LLM评审员和人类评审员的优势，从而提高评估效率和可靠性。

关键设计：在LH-Bench中，专家指导的评分标准是关键的设计要素。这些评分标准由领域专家制定，明确了评估指标和评分规则，并为LLM评审员提供了必要的领域背景知识。Ground-truth工件的设计也至关重要，它们提供了逐步奖励信号，鼓励模型生成高质量的中间产物。此外，成对人类偏好评估的设计也需要仔细考虑，例如如何选择合适的评审员、如何设计评估界面等。论文中没有明确提及具体的参数设置、损失函数或网络结构，因为LH-Bench主要关注评估方法的设计，而不是模型的训练。

🖼️ 关键图片

📊 实验亮点

实验结果表明，专家指导的评分标准比LLM生成的评分标准提供更可靠的评估信号（kappa = 0.60 vs. 0.46），并且人类偏好判断证实了相同的高层分离（p < 0.05）。这些结果表明，LH-Bench能够有效地评估LLM在主观企业任务中的表现，并且其评估结果与人类的判断高度一致。

🎯 应用场景

LH-Bench可应用于各种需要评估LLM在主观企业任务中表现的场景，例如自动化代码生成、内容创作、客户服务等。该研究的实际价值在于提供了一种更可靠、更全面的评估方法，帮助企业更好地了解LLM的能力，并选择合适的LLM来完成特定的任务。未来，LH-Bench可以进一步扩展到更多的企业任务和领域，并与其他评估方法相结合，从而构建更完善的LLM评估体系。

📄 摘要（原文）

Large language models excel on objectively verifiable tasks such as math and programming, where evaluation reduces to unit tests or a single correct answer. In contrast, real-world enterprise work is often subjective and context-dependent: success hinges on organizational goals, user intent, and the quality of intermediate artifacts produced across long, multi-tool workflows. We introduce LH-Bench, a three-pillar evaluation design that moves beyond binary correctness to score autonomous, long-horizon execution on subjective enterprise tasks. The pillars are: (i) expert-grounded rubrics that give LLM judges the domain context needed to score subjective work, (ii) curated ground-truth artifacts that enable stepwise reward signals (e.g., chapter-level annotation for content tasks), and (iii) pairwise human preference evaluation for convergent validation. We show that domain-authored rubrics provide substantially more reliable evaluation signals than LLM-authored rubrics (kappa = 0.60 vs. 0.46), and that human preference judgments confirm the same top-tier separation (p < 0.05), evidence that expert-grounded evaluation can scale without sacrificing reliability. We release public datasets and report results on two environments: Figma-to-code (33 real .fig tasks against the Figma API via MCP) and Programmatic content (41 courses comprising 183 individually-evaluated chapters on a course platform serving 30+ daily users).

Beyond Binary Correctness: Scaling Evaluation of Long-Horizon Agents on Subjective Enterprise Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理