LLMs Corrupt Your Documents When You Delegate

作者: Philippe Laban, Tobias Schnabel, Jennifer Neville

分类: cs.CL, cs.HC

发布日期: 2026-04-17

💡 一句话要点

揭示LLM在委托任务中易引入文档错误，提出DELEGATE-52基准评测

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 委托任务 文档编辑 可靠性评估 基准测试

📋 核心要点

现有LLM在委托任务中存在文档损坏问题，缺乏对长期委托工作流程的可靠性评估。
提出DELEGATE-52基准，模拟52个专业领域长期文档编辑的委托工作流程，评估LLM的可靠性。
实验表明，即使是前沿LLM在长期委托任务中也会引入显著的文档错误，平均损坏25%的内容。

📝 摘要（中文）

大型语言模型（LLM）有望颠覆知识工作，其中委托工作成为一种新的交互模式。委托需要信任，即期望LLM忠实地执行任务，而不会在文档中引入错误。本文提出了DELEGATE-52，用于研究AI系统在委托工作流程中的准备情况。DELEGATE-52模拟了跨52个专业领域（如编码、晶体学和音乐符号）的需要深度文档编辑的长期委托工作流程。对19个LLM的大规模实验表明，当前模型在委托期间会降低文档质量：即使是前沿模型（Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4）在长期工作流程结束时平均会损坏25%的文档内容，而其他模型的表现更差。进一步的实验表明，自主工具使用并不能提高DELEGATE-52上的性能，并且文档大小、交互长度或干扰文件的存在会加剧质量下降。分析表明，当前的LLM是不可靠的委托者：它们引入稀疏但严重的错误，这些错误会悄无声息地破坏文档，并在长期交互中不断累积。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在被委托执行长期文档编辑任务时，容易引入错误并损坏文档内容的问题。现有方法缺乏对LLM在长期委托工作流程中的可靠性评估，并且没有充分考虑不同专业领域文档的复杂性。现有的LLM在处理此类任务时，容易出现稀疏但严重的错误，这些错误会在长期交互中不断累积，导致文档质量下降。

核心思路：论文的核心思路是通过模拟真实的长期委托工作流程，并设计一个包含多个专业领域的文档编辑任务的基准测试集，来评估LLM在委托任务中的可靠性。通过大规模实验，分析LLM在不同条件下的文档损坏情况，并揭示影响LLM可靠性的关键因素。

技术框架：论文提出了DELEGATE-52基准测试集，该基准包含52个专业领域的文档编辑任务。实验流程包括：1) 将文档委托给LLM进行编辑；2) 模拟长期交互，让LLM逐步完成文档编辑任务；3) 评估LLM编辑后的文档质量，并计算文档损坏率。此外，论文还研究了自主工具使用、文档大小、交互长度和干扰文件等因素对LLM可靠性的影响。

关键创新：论文的主要创新在于：1) 提出了DELEGATE-52基准测试集，用于评估LLM在长期委托工作流程中的可靠性；2) 通过大规模实验，揭示了当前LLM在委托任务中容易引入文档错误的问题；3) 分析了影响LLM可靠性的关键因素，如文档大小、交互长度和干扰文件等。

关键设计：DELEGATE-52基准测试集包含52个专业领域的文档，涵盖编码、晶体学和音乐符号等。文档编辑任务的设计旨在模拟真实的委托工作流程，例如，要求LLM根据特定指令修改文档内容、添加新的信息或删除冗余信息。文档损坏率的计算方法是比较原始文档和LLM编辑后的文档，并统计错误的数量和类型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是前沿LLM（Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4）在长期委托工作流程结束时平均会损坏25%的文档内容。此外，自主工具使用并不能显著提高性能，而文档大小、交互长度和干扰文件的存在会加剧文档损坏。这些结果表明，当前LLM在委托任务中存在严重的可靠性问题。

🎯 应用场景

该研究成果可应用于评估和改进LLM在自动化文档处理、知识管理、内容创作等领域的可靠性。通过DELEGATE-52基准，可以帮助开发者识别LLM的潜在缺陷，并开发更可靠的AI系统，从而提高工作效率和数据质量。未来的研究可以探索如何利用该基准来开发更鲁棒的LLM，并提高其在长期委托任务中的性能。

📄 摘要（原文）

Large Language Models (LLMs) are poised to disrupt knowledge work, with the emergence of delegated work as a new interaction paradigm (e.g., vibe coding). Delegation requires trust - the expectation that the LLM will faithfully execute the task without introducing errors into documents. We introduce DELEGATE-52 to study the readiness of AI systems in delegated workflows. DELEGATE-52 simulates long delegated workflows that require in-depth document editing across 52 professional domains, such as coding, crystallography, and music notation. Our large-scale experiment with 19 LLMs reveals that current models degrade documents during delegation: even frontier models (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) corrupt an average of 25% of document content by the end of long workflows, with other models failing more severely. Additional experiments reveal that agentic tool use does not improve performance on DELEGATE-52, and that degradation severity is exacerbated by document size, length of interaction, or presence of distractor files. Our analysis shows that current LLMs are unreliable delegates: they introduce sparse but severe errors that silently corrupt documents, compounding over long interaction.

LLMs Corrupt Your Documents When You Delegate

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理