OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models
作者: Xiaomeng Hu, Yinger Zhang, Fei Huang, Jianhong Tu, Yang Su, Lianghao Deng, Yuxuan Liu, Yantao Liu, Dayiheng Liu, Tsung-Yi Ho
分类: cs.CL
发布日期: 2026-04-13
备注: 23 pages, 8 figures, 2 tables. Project page: https://gregxmhu.github.io/OccuBench-website/
💡 一句话要点
OccuBench:通过语言世界模型评估AI智能体在真实职业任务中的表现
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: AI智能体评估 语言世界模型 职业任务基准 环境鲁棒性 故障注入
📋 核心要点
- 现有基准测试无法全面评估AI智能体在众多职业领域中的表现,因为它们仅限于存在公共环境的少数领域。
- OccuBench利用语言世界模型(LWMs)模拟特定领域环境,并通过多智能体合成流程自动生成评估实例。
- 实验结果表明,不同模型在不同行业表现各异,隐式故障更具挑战性,且模型规模、世代和推理能力对性能有显著影响。
📝 摘要(中文)
本文提出了OccuBench,一个覆盖10个行业类别和65个专业领域的100个真实世界职业任务场景的基准,旨在评估AI智能体在专业领域的表现。OccuBench利用语言世界模型(LWMs),通过LLM驱动的工具响应生成来模拟特定领域的环境。该基准采用多智能体合成流程自动生成具有保证可解性、校准难度和文档驱动多样性的评估实例。OccuBench从任务完成度和环境鲁棒性两个维度评估智能体,其中环境鲁棒性通过受控的故障注入(显式错误、隐式数据降级和混合故障)来衡量。实验评估了8个模型系列的15个前沿模型,结果表明:没有单一模型在所有行业中占据主导地位;隐式故障比显式错误和混合故障更难处理;更大的模型、更新的世代和更高的推理努力程度能持续提高性能;强大的智能体不一定是强大的环境模拟器。模拟器质量对于基于LWM的评估可靠性至关重要。OccuBench提供了首个针对AI智能体在专业职业任务中跨行业的系统评估。
🔬 方法详解
问题定义:现有AI智能体评估基准主要集中在少数具有公共环境的领域,无法覆盖数百个职业领域。这使得评估AI智能体在真实世界专业任务中的能力变得困难。现有方法缺乏跨行业的系统评估,并且难以模拟真实世界中复杂的环境和故障。
核心思路:本文的核心思路是利用语言世界模型(LWMs)来模拟特定领域的环境。LWMs通过大型语言模型(LLMs)驱动的工具响应生成,能够创建具有文档驱动多样性的评估实例,并支持受控的故障注入,从而实现对AI智能体在各种专业任务中的全面评估。通过这种方式,可以克服现有基准测试的局限性,并更真实地反映AI智能体在实际应用中的性能。
技术框架:OccuBench的整体框架包含以下几个主要模块:1) 任务场景定义:定义10个行业类别和65个专业领域的100个真实世界职业任务场景。2) 语言世界模型(LWMs):利用LLMs生成特定领域的环境模拟,包括工具响应和文档。3) 多智能体合成流程:自动生成具有保证可解性、校准难度和文档驱动多样性的评估实例。4) 评估指标:从任务完成度和环境鲁棒性两个维度评估智能体,其中环境鲁棒性通过受控的故障注入(显式错误、隐式数据降级和混合故障)来衡量。5) 智能体评估:评估各种AI智能体在不同任务场景和故障条件下的表现。
关键创新:OccuBench的关键创新在于其利用语言世界模型(LWMs)来模拟真实世界职业任务环境。与传统的依赖预定义环境的基准测试不同,OccuBench能够通过LLMs动态生成环境,从而覆盖更广泛的职业领域和更复杂的任务场景。此外,OccuBench还引入了受控的故障注入机制,用于评估智能体在不同环境条件下的鲁棒性。
关键设计:在LWMs的设计中,关键在于如何利用LLMs生成高质量的工具响应和文档。这需要对LLMs进行适当的训练和微调,以使其能够理解特定领域的知识和任务要求。在多智能体合成流程中,需要保证生成的评估实例具有可解性,并且难度经过校准,以确保评估结果的有效性。此外,故障注入机制的设计也需要仔细考虑,以确保注入的故障能够真实地反映实际应用中可能遇到的问题。
🖼️ 关键图片
📊 实验亮点
实验结果表明,没有单一模型在所有行业中占据主导地位,不同模型在不同行业表现各异。隐式故障(如数据截断、字段缺失)比显式错误(如超时、500错误)和混合故障更难处理。更大的模型、更新的世代和更高的推理努力程度能持续提高性能。例如,GPT-5.2在推理努力程度从最小到最大时,性能提高了27.5个百分点。
🎯 应用场景
OccuBench可用于评估和比较不同AI智能体在各种专业领域的表现,帮助研究人员和开发者选择最适合特定任务的智能体。此外,该基准还可以用于识别智能体的弱点,并指导智能体的改进和优化。潜在的应用领域包括医疗、金融、法律、工程等。
📄 摘要(原文)
AI agents are expected to perform professional work across hundreds of occupational domains (from emergency department triage to nuclear reactor safety monitoring to customs import processing), yet existing benchmarks can only evaluate agents in the few domains where public environments exist. We introduce OccuBench, a benchmark covering 100 real-world professional task scenarios across 10 industry categories and 65 specialized domains, enabled by Language World Models (LWMs) that simulate domain-specific environments through LLM-driven tool response generation. Our multi-agent synthesis pipeline automatically produces evaluation instances with guaranteed solvability, calibrated difficulty, and document-grounded diversity. OccuBench evaluates agents along two complementary dimensions: task completion across professional domains and environmental robustness under controlled fault injection (explicit errors, implicit data degradation, and mixed faults). We evaluate 15 frontier models across 8 model families and find that: (1) no single model dominates all industries, as each has a distinct occupational capability profile; (2) implicit faults (truncated data, missing fields) are harder than both explicit errors (timeouts, 500s) and mixed faults, because they lack overt error signals and require the agent to independently detect data degradation; (3) larger models, newer generations, and higher reasoning effort consistently improve performance. GPT-5.2 improves by 27.5 points from minimal to maximum reasoning effort; and (4) strong agents are not necessarily strong environment simulators. Simulator quality is critical for LWM-based evaluation reliability. OccuBench provides the first systematic cross-industry evaluation of AI agents on professional occupational tasks.