Mind the Gap: Can Frontier LLMs Pass a Standardized Office Proficiency Exam?
作者: Tengchao Lv, Dongdong Zhang, Jiayu Ding, Yilin Jia, Yuzhong Zhao, Yupan Huang, Wenshan Wu, Xiangyang Zhou, Shaohan Huang, Nan Yang, Li Dong, Lei Cui, Furu Wei
分类: cs.AI, cs.CL
发布日期: 2026-06-09
备注: 21 pages, 5 figures
💡 一句话要点
提出基于NCRE的评估方法以测试前沿LLM在办公自动化中的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 办公自动化 评估框架 文档处理 机器学习
📋 核心要点
- 现有的LLM在复杂办公软件中的表现尚未得到充分测试,尤其是在长远规划和多应用集成方面存在明显不足。
- 本文提出了一种基于NCRE的评估框架,通过200个实操任务量化LLM在办公自动化中的能力,旨在填补这一研究空白。
- 实验结果显示,尽管前沿LLM在某些任务上有所进展,但整体表现仍低于行业标准,表明当前技术在细粒度文档自动化方面的挑战依然存在。
📝 摘要(中文)
大型语言模型(LLM)在计算机自动化中的应用正在加速,但其在复杂的专业级生产力软件中的能力尚未得到充分验证。本文认为,办公自动化是评估文档自动化能力的理想环境,因为它需要长远规划、精确参数配置和多应用集成。为量化这一能力,本文基于中国国家计算机等级考试(NCRE)引入了一种评估方法,涵盖Word、Excel和PowerPoint中的200个综合实操任务。每个任务采用100分的评分标准,使用7118个机器可评估标准进行评分。我们对7个前沿LLM进行了基准测试,观察到显著的局限性:单回合模型的最高得分为36.6%。而一个更强的代理系统通过执行反馈、迭代修复和更广泛的办公自动化访问达到了68.8%,但仍低于95.5%的社区参考分数。实验表明,尽管代码生成技术有所进展,实现可靠的细粒度办公文档自动化仍然是当前代码生成LLM和代理系统面临的重大挑战。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在办公自动化中的能力评估问题,现有方法未能有效测试其在复杂任务中的表现,尤其是在长远规划和多应用集成方面的不足。
核心思路:通过引入基于中国国家计算机等级考试(NCRE)的评估框架,设计200个综合实操任务,以量化LLM在办公软件中的文档自动化能力,提供一个标准化的测试环境。
技术框架:整体架构包括任务设计、评分标准和模型评估三个主要模块。任务设计涵盖Word、Excel和PowerPoint中的实际操作,评分标准使用7118个机器可评估的标准进行量化评估。
关键创新:最重要的创新点在于引入了一个全面的评估框架,结合了多种办公软件的实际操作任务,填补了现有LLM评估方法的空白,提供了更为细致的性能分析。
关键设计:在任务设计中,采用了100分的评分标准,确保评估的客观性和准确性。模型评估过程中,单回合模型与具有执行反馈和迭代修复能力的系统进行了对比,揭示了不同系统在办公自动化中的表现差异。
🖼️ 关键图片
📊 实验亮点
实验结果显示,单回合模型的最高得分仅为36.6%,而引入执行反馈和迭代修复的系统得分提升至68.8%。尽管如此,仍低于95.5%的社区参考分数,表明当前LLM在细粒度办公文档自动化方面仍面临重大挑战。
🎯 应用场景
该研究的潜在应用领域包括智能办公助手、自动化文档处理和企业级生产力工具等。通过提升LLM在办公软件中的自动化能力,可以显著提高工作效率,减少人工干预,推动办公自动化的进一步发展。未来,该评估框架也可扩展至其他领域的智能系统评估,具有广泛的实际价值和影响力。
📄 摘要(原文)
The deployment of Large Language Model (LLM) agents for computer automation is accelerating, yet their ability to navigate complex, professional-grade productivity software is largely untested. We argue that Office automation is an ideal environment for benchmarking document-automation capability, as it requires long-horizon planning and reasoning, precise parameter configuration, and multi-application integration. To quantify this capability, we introduce an evaluation based on China's National Computer Rank Examination (NCRE), featuring 200 comprehensive practical-operation tasks across Word, Excel, and PowerPoint. Each task is scored on a 100-point rubric scale using 7,118 machine-gradable criteria, and Score Rate (SR) denotes the mean percentage of rubric points earned across these tasks. We benchmark 7 frontier LLMs and observe stark limitations: single-turn models score a maximum of 36.6%. A stronger agentic system with execution feedback, iterative repair, and broader Office automation access reaches 68.8%, but remains below the 95.5% community-reference score used as a scoring sanity check. Ultimately, our experiments demonstrate that despite recent advancements in code generation, achieving reliable fine-grained Office document automation remains a significant challenge for current code-generating LLM and agent systems.