Structured Context Engineering for File-Native Agentic Systems: Evaluating Schema Accuracy, Format Effectiveness, and Multi-File Navigation at Scale
作者: Damon McMillan
分类: cs.CL, cs.AI
发布日期: 2026-02-05
备注: 8 pages, 7 figures, 10 tables, 26 references
💡 一句话要点
针对文件原生Agent系统,研究结构化上下文工程对SQL生成任务的影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agent系统 上下文工程 结构化数据 SQL生成 大型语言模型
📋 核心要点
- 现有Agent系统在结构化上下文构建方面缺乏经验指导,导致性能瓶颈。
- 通过系统研究不同格式和架构对SQL生成任务的影响,为Agent系统提供上下文工程的指导。
- 实验表明,架构选择应根据模型能力定制,文件原生Agent可扩展到10000个表。
📝 摘要(中文)
大型语言模型(LLM)Agent越来越多地通过编程接口操作外部系统,但从业者缺乏关于如何构建Agent所消耗的上下文的经验指导。本文以SQL生成作为编程Agent操作的代理,对结构化数据的上下文工程进行了系统研究,包括跨11个模型、4种格式(YAML、Markdown、JSON、TOON)和10到10000个表范围的9649个实验。研究结果挑战了常见的假设。首先,架构选择取决于模型:基于文件的上下文检索提高了前沿模型(Claude、GPT、Gemini;+2.7%,p=0.029)的准确性,但对开源模型显示出混合结果(总计-7.7%,p<0.001),且不同模型的下降幅度差异很大。其次,格式对总体准确性没有显著影响(卡方=2.45,p=0.484),但个别模型,尤其是开源模型,表现出对格式的特定敏感性。第三,模型能力是主要因素,前沿模型和开源模型之间的准确率差距为21个百分点,这使得任何格式或架构的影响都相形见绌。第四,文件原生Agent可以通过领域分区的模式扩展到10000个表,同时保持较高的导航准确性。第五,文件大小不能预测运行时效率:由于格式不熟悉导致的搜索模式,紧凑格式在规模上会消耗更多的token。这些发现为从业者提供了基于证据的指导,以在结构化系统上部署LLM Agent,表明架构决策应根据模型能力量身定制,而不是假设通用的最佳实践。
🔬 方法详解
问题定义:现有的大型语言模型Agent在与外部结构化系统交互时,如何有效地构建和利用上下文信息是一个关键问题。现有的方法缺乏系统性的研究和经验指导,导致Agent在处理大规模结构化数据时,性能受到限制,例如SQL生成任务的准确性不高,效率低下。
核心思路:本文的核心思路是通过系统性的实验,评估不同上下文构建方法(包括不同的文件格式和架构)对Agent性能的影响,从而为Agent系统的设计提供经验指导。重点关注SQL生成任务,将其作为Agent与结构化数据交互的代理。
技术框架:本文构建了一个包含多种模型、多种文件格式和不同规模数据库的实验框架。该框架主要包含以下几个阶段:1)构建不同规模的结构化数据库;2)使用不同的文件格式(YAML、Markdown、JSON、TOON)表示数据库的schema信息;3)使用不同的Agent模型(包括前沿模型和开源模型)生成SQL查询;4)评估生成的SQL查询的准确性和效率。
关键创新:本文的关键创新在于:1)系统性地研究了不同上下文构建方法对Agent性能的影响,填补了该领域的空白;2)揭示了架构选择应根据模型能力定制,而不是采用通用的最佳实践;3)证明了文件原生Agent可以通过领域分区的模式扩展到10000个表,同时保持较高的导航准确性。
关键设计:实验中,使用了不同规模的数据库,从10个表到10000个表不等。使用了四种不同的文件格式来表示数据库的schema信息,包括YAML、Markdown、JSON和TOON。使用了多种Agent模型,包括前沿模型(如Claude、GPT、Gemini)和开源模型。评估指标包括SQL生成的准确性和效率,以及token消耗量。
📊 实验亮点
实验结果表明,架构选择对Agent性能的影响取决于模型能力。对于前沿模型,基于文件的上下文检索可以提高准确性(+2.7%),但对于开源模型,效果不明显(-7.7%)。模型能力是主要因素,前沿模型和开源模型之间的准确率差距高达21个百分点。文件原生Agent可以扩展到10000个表,同时保持较高的导航准确性。
🎯 应用场景
该研究成果可应用于各种需要Agent与结构化数据交互的场景,例如数据库查询、数据分析、自动化报告生成等。通过选择合适的上下文构建方法,可以提高Agent的性能和效率,降低开发和维护成本。未来,该研究可以扩展到其他类型的结构化数据和Agent任务。
📄 摘要(原文)
Large Language Model agents increasingly operate external systems through programmatic interfaces, yet practitioners lack empirical guidance on how to structure the context these agents consume. Using SQL generation as a proxy for programmatic agent operations, we present a systematic study of context engineering for structured data, comprising 9,649 experiments across 11 models, 4 formats (YAML, Markdown, JSON, Token-Oriented Object Notation [TOON]), and schemas ranging from 10 to 10,000 tables. Our findings challenge common assumptions. First, architecture choice is model-dependent: file-based context retrieval improves accuracy for frontier-tier models (Claude, GPT, Gemini; +2.7%, p=0.029) but shows mixed results for open source models (aggregate -7.7%, p<0.001), with deficits varying substantially by model. Second, format does not significantly affect aggregate accuracy (chi-squared=2.45, p=0.484), though individual models, particularly open source, exhibit format-specific sensitivities. Third, model capability is the dominant factor, with a 21 percentage point accuracy gap between frontier and open source tiers that dwarfs any format or architecture effect. Fourth, file-native agents scale to 10,000 tables through domain-partitioned schemas while maintaining high navigation accuracy. Fifth, file size does not predict runtime efficiency: compact formats can consume significantly more tokens at scale due to format-unfamiliar search patterns. These findings provide practitioners with evidence-based guidance for deploying LLM agents on structured systems, demonstrating that architectural decisions should be tailored to model capability rather than assuming universal best practices.