Mind the Gap: Can Frontier LLMs Pass a Standardized Office Proficiency Exam?

作者: Tengchao Lv, Dongdong Zhang, Jiayu Ding, Yilin Jia, Yuzhong Zhao, Yupan Huang, Wenshan Wu, Xiangyang Zhou, Shaohan Huang, Nan Yang, Li Dong, Lei Cui, Furu Wei

分类: cs.AI, cs.CL

发布日期: 2026-06-09

备注: 21 pages, 5 figures

💡 一句话要点

提出基于NCRE的评估方法以测试前沿LLM在办公自动化中的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 办公自动化 评估框架 文档处理 机器学习

📋 核心要点

现有的LLM在复杂办公软件中的表现尚未得到充分测试，尤其是在长远规划和多应用集成方面存在明显不足。
本文提出了一种基于NCRE的评估框架，通过200个实操任务量化LLM在办公自动化中的能力，旨在填补这一研究空白。
实验结果显示，尽管前沿LLM在某些任务上有所进展，但整体表现仍低于行业标准，表明当前技术在细粒度文档自动化方面的挑战依然存在。

📝 摘要（中文）

大型语言模型（LLM）在计算机自动化中的应用正在加速，但其在复杂的专业级生产力软件中的能力尚未得到充分验证。本文认为，办公自动化是评估文档自动化能力的理想环境，因为它需要长远规划、精确参数配置和多应用集成。为量化这一能力，本文基于中国国家计算机等级考试（NCRE）引入了一种评估方法，涵盖Word、Excel和PowerPoint中的200个综合实操任务。每个任务采用100分的评分标准，使用7118个机器可评估标准进行评分。我们对7个前沿LLM进行了基准测试，观察到显著的局限性：单回合模型的最高得分为36.6%。而一个更强的代理系统通过执行反馈、迭代修复和更广泛的办公自动化访问达到了68.8%，但仍低于95.5%的社区参考分数。实验表明，尽管代码生成技术有所进展，实现可靠的细粒度办公文档自动化仍然是当前代码生成LLM和代理系统面临的重大挑战。

🔬 方法详解

问题定义：本文旨在解决大型语言模型在办公自动化中的能力评估问题，现有方法未能有效测试其在复杂任务中的表现，尤其是在长远规划和多应用集成方面的不足。

核心思路：通过引入基于中国国家计算机等级考试（NCRE）的评估框架，设计200个综合实操任务，以量化LLM在办公软件中的文档自动化能力，提供一个标准化的测试环境。

技术框架：整体架构包括任务设计、评分标准和模型评估三个主要模块。任务设计涵盖Word、Excel和PowerPoint中的实际操作，评分标准使用7118个机器可评估的标准进行量化评估。

关键创新：最重要的创新点在于引入了一个全面的评估框架，结合了多种办公软件的实际操作任务，填补了现有LLM评估方法的空白，提供了更为细致的性能分析。

关键设计：在任务设计中，采用了100分的评分标准，确保评估的客观性和准确性。模型评估过程中，单回合模型与具有执行反馈和迭代修复能力的系统进行了对比，揭示了不同系统在办公自动化中的表现差异。

🖼️ 关键图片

📊 实验亮点

实验结果显示，单回合模型的最高得分仅为36.6%，而引入执行反馈和迭代修复的系统得分提升至68.8%。尽管如此，仍低于95.5%的社区参考分数，表明当前LLM在细粒度办公文档自动化方面仍面临重大挑战。

🎯 应用场景

该研究的潜在应用领域包括智能办公助手、自动化文档处理和企业级生产力工具等。通过提升LLM在办公软件中的自动化能力，可以显著提高工作效率，减少人工干预，推动办公自动化的进一步发展。未来，该评估框架也可扩展至其他领域的智能系统评估，具有广泛的实际价值和影响力。

📄 摘要（原文）

The deployment of Large Language Model (LLM) agents for computer automation is accelerating, yet their ability to navigate complex, professional-grade productivity software is largely untested. We argue that Office automation is an ideal environment for benchmarking document-automation capability, as it requires long-horizon planning and reasoning, precise parameter configuration, and multi-application integration. To quantify this capability, we introduce an evaluation based on China's National Computer Rank Examination (NCRE), featuring 200 comprehensive practical-operation tasks across Word, Excel, and PowerPoint. Each task is scored on a 100-point rubric scale using 7,118 machine-gradable criteria, and Score Rate (SR) denotes the mean percentage of rubric points earned across these tasks. We benchmark 7 frontier LLMs and observe stark limitations: single-turn models score a maximum of 36.6%. A stronger agentic system with execution feedback, iterative repair, and broader Office automation access reaches 68.8%, but remains below the 95.5% community-reference score used as a scoring sanity check. Ultimately, our experiments demonstrate that despite recent advancements in code generation, achieving reliable fine-grained Office document automation remains a significant challenge for current code-generating LLM and agent systems.

Mind the Gap: Can Frontier LLMs Pass a Standardized Office Proficiency Exam?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理