LLMs Corrupt Your Documents When You Delegate

📄 arXiv: 2604.15597v1 📥 PDF

作者: Philippe Laban, Tobias Schnabel, Jennifer Neville

分类: cs.CL, cs.HC

发布日期: 2026-04-17


💡 一句话要点

揭示LLM在委托任务中易引入文档错误,提出DELEGATE-52基准评测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 委托任务 文档编辑 可靠性评估 基准测试

📋 核心要点

  1. 现有LLM在委托任务中存在文档损坏问题,缺乏对长期委托工作流程的可靠性评估。
  2. 提出DELEGATE-52基准,模拟52个专业领域长期文档编辑的委托工作流程,评估LLM的可靠性。
  3. 实验表明,即使是前沿LLM在长期委托任务中也会引入显著的文档错误,平均损坏25%的内容。

📝 摘要(中文)

大型语言模型(LLM)有望颠覆知识工作,其中委托工作成为一种新的交互模式。委托需要信任,即期望LLM忠实地执行任务,而不会在文档中引入错误。本文提出了DELEGATE-52,用于研究AI系统在委托工作流程中的准备情况。DELEGATE-52模拟了跨52个专业领域(如编码、晶体学和音乐符号)的需要深度文档编辑的长期委托工作流程。对19个LLM的大规模实验表明,当前模型在委托期间会降低文档质量:即使是前沿模型(Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4)在长期工作流程结束时平均会损坏25%的文档内容,而其他模型的表现更差。进一步的实验表明,自主工具使用并不能提高DELEGATE-52上的性能,并且文档大小、交互长度或干扰文件的存在会加剧质量下降。分析表明,当前的LLM是不可靠的委托者:它们引入稀疏但严重的错误,这些错误会悄无声息地破坏文档,并在长期交互中不断累积。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在被委托执行长期文档编辑任务时,容易引入错误并损坏文档内容的问题。现有方法缺乏对LLM在长期委托工作流程中的可靠性评估,并且没有充分考虑不同专业领域文档的复杂性。现有的LLM在处理此类任务时,容易出现稀疏但严重的错误,这些错误会在长期交互中不断累积,导致文档质量下降。

核心思路:论文的核心思路是通过模拟真实的长期委托工作流程,并设计一个包含多个专业领域的文档编辑任务的基准测试集,来评估LLM在委托任务中的可靠性。通过大规模实验,分析LLM在不同条件下的文档损坏情况,并揭示影响LLM可靠性的关键因素。

技术框架:论文提出了DELEGATE-52基准测试集,该基准包含52个专业领域的文档编辑任务。实验流程包括:1) 将文档委托给LLM进行编辑;2) 模拟长期交互,让LLM逐步完成文档编辑任务;3) 评估LLM编辑后的文档质量,并计算文档损坏率。此外,论文还研究了自主工具使用、文档大小、交互长度和干扰文件等因素对LLM可靠性的影响。

关键创新:论文的主要创新在于:1) 提出了DELEGATE-52基准测试集,用于评估LLM在长期委托工作流程中的可靠性;2) 通过大规模实验,揭示了当前LLM在委托任务中容易引入文档错误的问题;3) 分析了影响LLM可靠性的关键因素,如文档大小、交互长度和干扰文件等。

关键设计:DELEGATE-52基准测试集包含52个专业领域的文档,涵盖编码、晶体学和音乐符号等。文档编辑任务的设计旨在模拟真实的委托工作流程,例如,要求LLM根据特定指令修改文档内容、添加新的信息或删除冗余信息。文档损坏率的计算方法是比较原始文档和LLM编辑后的文档,并统计错误的数量和类型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是前沿LLM(Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4)在长期委托工作流程结束时平均会损坏25%的文档内容。此外,自主工具使用并不能显著提高性能,而文档大小、交互长度和干扰文件的存在会加剧文档损坏。这些结果表明,当前LLM在委托任务中存在严重的可靠性问题。

🎯 应用场景

该研究成果可应用于评估和改进LLM在自动化文档处理、知识管理、内容创作等领域的可靠性。通过DELEGATE-52基准,可以帮助开发者识别LLM的潜在缺陷,并开发更可靠的AI系统,从而提高工作效率和数据质量。未来的研究可以探索如何利用该基准来开发更鲁棒的LLM,并提高其在长期委托任务中的性能。

📄 摘要(原文)

Large Language Models (LLMs) are poised to disrupt knowledge work, with the emergence of delegated work as a new interaction paradigm (e.g., vibe coding). Delegation requires trust - the expectation that the LLM will faithfully execute the task without introducing errors into documents. We introduce DELEGATE-52 to study the readiness of AI systems in delegated workflows. DELEGATE-52 simulates long delegated workflows that require in-depth document editing across 52 professional domains, such as coding, crystallography, and music notation. Our large-scale experiment with 19 LLMs reveals that current models degrade documents during delegation: even frontier models (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) corrupt an average of 25% of document content by the end of long workflows, with other models failing more severely. Additional experiments reveal that agentic tool use does not improve performance on DELEGATE-52, and that degradation severity is exacerbated by document size, length of interaction, or presence of distractor files. Our analysis shows that current LLMs are unreliable delegates: they introduce sparse but severe errors that silently corrupt documents, compounding over long interaction.