Structured Context Engineering for File-Native Agentic Systems: Evaluating Schema Accuracy, Format Effectiveness, and Multi-File Navigation at Scale

作者: Damon McMillan

分类: cs.CL, cs.AI

发布日期: 2026-02-05

备注: 8 pages, 7 figures, 10 tables, 26 references

💡 一句话要点

针对文件原生Agent系统，研究结构化上下文工程对SQL生成任务的影响

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agent系统 上下文工程 结构化数据 SQL生成 大型语言模型

📋 核心要点

现有Agent系统在结构化上下文构建方面缺乏经验指导，导致性能瓶颈。
通过系统研究不同格式和架构对SQL生成任务的影响，为Agent系统提供上下文工程的指导。
实验表明，架构选择应根据模型能力定制，文件原生Agent可扩展到10000个表。

📝 摘要（中文）

大型语言模型（LLM）Agent越来越多地通过编程接口操作外部系统，但从业者缺乏关于如何构建Agent所消耗的上下文的经验指导。本文以SQL生成作为编程Agent操作的代理，对结构化数据的上下文工程进行了系统研究，包括跨11个模型、4种格式（YAML、Markdown、JSON、TOON）和10到10000个表范围的9649个实验。研究结果挑战了常见的假设。首先，架构选择取决于模型：基于文件的上下文检索提高了前沿模型（Claude、GPT、Gemini；+2.7%，p=0.029）的准确性，但对开源模型显示出混合结果（总计-7.7%，p<0.001），且不同模型的下降幅度差异很大。其次，格式对总体准确性没有显著影响（卡方=2.45，p=0.484），但个别模型，尤其是开源模型，表现出对格式的特定敏感性。第三，模型能力是主要因素，前沿模型和开源模型之间的准确率差距为21个百分点，这使得任何格式或架构的影响都相形见绌。第四，文件原生Agent可以通过领域分区的模式扩展到10000个表，同时保持较高的导航准确性。第五，文件大小不能预测运行时效率：由于格式不熟悉导致的搜索模式，紧凑格式在规模上会消耗更多的token。这些发现为从业者提供了基于证据的指导，以在结构化系统上部署LLM Agent，表明架构决策应根据模型能力量身定制，而不是假设通用的最佳实践。

🔬 方法详解

问题定义：现有的大型语言模型Agent在与外部结构化系统交互时，如何有效地构建和利用上下文信息是一个关键问题。现有的方法缺乏系统性的研究和经验指导，导致Agent在处理大规模结构化数据时，性能受到限制，例如SQL生成任务的准确性不高，效率低下。

核心思路：本文的核心思路是通过系统性的实验，评估不同上下文构建方法（包括不同的文件格式和架构）对Agent性能的影响，从而为Agent系统的设计提供经验指导。重点关注SQL生成任务，将其作为Agent与结构化数据交互的代理。

技术框架：本文构建了一个包含多种模型、多种文件格式和不同规模数据库的实验框架。该框架主要包含以下几个阶段：1）构建不同规模的结构化数据库；2）使用不同的文件格式（YAML、Markdown、JSON、TOON）表示数据库的schema信息；3）使用不同的Agent模型（包括前沿模型和开源模型）生成SQL查询；4）评估生成的SQL查询的准确性和效率。

关键创新：本文的关键创新在于：1）系统性地研究了不同上下文构建方法对Agent性能的影响，填补了该领域的空白；2）揭示了架构选择应根据模型能力定制，而不是采用通用的最佳实践；3）证明了文件原生Agent可以通过领域分区的模式扩展到10000个表，同时保持较高的导航准确性。

关键设计：实验中，使用了不同规模的数据库，从10个表到10000个表不等。使用了四种不同的文件格式来表示数据库的schema信息，包括YAML、Markdown、JSON和TOON。使用了多种Agent模型，包括前沿模型（如Claude、GPT、Gemini）和开源模型。评估指标包括SQL生成的准确性和效率，以及token消耗量。

📊 实验亮点

实验结果表明，架构选择对Agent性能的影响取决于模型能力。对于前沿模型，基于文件的上下文检索可以提高准确性（+2.7%），但对于开源模型，效果不明显（-7.7%）。模型能力是主要因素，前沿模型和开源模型之间的准确率差距高达21个百分点。文件原生Agent可以扩展到10000个表，同时保持较高的导航准确性。

🎯 应用场景

该研究成果可应用于各种需要Agent与结构化数据交互的场景，例如数据库查询、数据分析、自动化报告生成等。通过选择合适的上下文构建方法，可以提高Agent的性能和效率，降低开发和维护成本。未来，该研究可以扩展到其他类型的结构化数据和Agent任务。

📄 摘要（原文）

Large Language Model agents increasingly operate external systems through programmatic interfaces, yet practitioners lack empirical guidance on how to structure the context these agents consume. Using SQL generation as a proxy for programmatic agent operations, we present a systematic study of context engineering for structured data, comprising 9,649 experiments across 11 models, 4 formats (YAML, Markdown, JSON, Token-Oriented Object Notation [TOON]), and schemas ranging from 10 to 10,000 tables. Our findings challenge common assumptions. First, architecture choice is model-dependent: file-based context retrieval improves accuracy for frontier-tier models (Claude, GPT, Gemini; +2.7%, p=0.029) but shows mixed results for open source models (aggregate -7.7%, p<0.001), with deficits varying substantially by model. Second, format does not significantly affect aggregate accuracy (chi-squared=2.45, p=0.484), though individual models, particularly open source, exhibit format-specific sensitivities. Third, model capability is the dominant factor, with a 21 percentage point accuracy gap between frontier and open source tiers that dwarfs any format or architecture effect. Fourth, file-native agents scale to 10,000 tables through domain-partitioned schemas while maintaining high navigation accuracy. Fifth, file size does not predict runtime efficiency: compact formats can consume significantly more tokens at scale due to format-unfamiliar search patterns. These findings provide practitioners with evidence-based guidance for deploying LLM agents on structured systems, demonstrating that architectural decisions should be tailored to model capability rather than assuming universal best practices.

Structured Context Engineering for File-Native Agentic Systems: Evaluating Schema Accuracy, Format Effectiveness, and Multi-File Navigation at Scale

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理