XML Prompting as Grammar-Constrained Interaction: Fixed-Point Semantics, Convergence Guarantees, and Human-AI Protocols

📄 arXiv: 2509.08182v1 📥 PDF

作者: Faruk Alpay, Taylan Alpay

分类: cs.PL, cs.AI, cs.CL

发布日期: 2025-09-09

备注: 7 pages, multiple XML prompts


💡 一句话要点

提出基于XML提示的语法约束交互框架,保障LLM输出结构化和可控性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: XML提示 语法约束解码 定点语义 人机交互 结构化输出

📋 核心要点

  1. 现有LLM在生成结构化输出时面临挑战,难以保证输出符合预定义的模式和语法。
  2. 论文提出基于XML提示的框架,利用语法约束解码和定点语义,确保LLM生成结构化的、符合规范的输出。
  3. 通过人机交互循环,迭代优化提示,并证明了该方法在特定条件下具有收敛性,提升了输出质量。

📝 摘要(中文)

本文提出了一种基于XML标签的结构化提示方法,旨在引导大型语言模型(LLMs)生成可解析且符合模式的输出,从而应用于实际系统。该研究从逻辑角度出发,统一了(i)语法约束解码、(ii)基于层级提示格的定点语义以及(iii)收敛的人机交互循环。论文形式化了一个在精化顺序下的完整XML树格,并证明了单调的提示到提示算子具有最小定点(Knaster-Tarski定理),从而表征了稳态协议。在树上的任务感知收缩度量下,进一步证明了迭代指导的Banach式收敛性。通过上下文无关文法(CFGs)实例化XML模式,展示了约束解码如何在保证任务性能的同时确保良好形式。一系列多层人机交互方案演示了实际部署模式,包括多通道“计划→验证→修改”例程和代理工具的使用。论文提供了数学上完整的证明,并将该框架与语法对齐解码、链式验证和程序化提示等最新进展联系起来。

🔬 方法详解

问题定义:现有的大型语言模型在生成结构化数据时,例如JSON或XML,经常出现格式错误或不符合预定义模式的问题。这限制了它们在需要结构化输出的实际应用中的可用性。现有的方法,例如简单的提示工程,往往难以保证输出的结构正确性,需要人工干预进行修正。

核心思路:论文的核心思路是利用XML提示作为一种语法约束机制,引导LLM生成符合预定义模式的结构化输出。通过将XML模式转化为上下文无关文法(CFG),并结合约束解码技术,确保生成的输出是良构的。此外,论文还引入了定点语义和人机交互循环,迭代优化提示,提高输出质量。

技术框架:该框架包含以下几个主要组成部分:1) XML模式定义:定义目标输出的结构化模式。2) 上下文无关文法(CFG)转换:将XML模式转换为CFG,用于约束解码。3) 约束解码:利用CFG约束LLM的解码过程,确保生成的输出符合语法规则。4) 定点语义:形式化XML树的格结构,并定义提示到提示的单调算子,利用Knaster-Tarski定理保证定点的存在性。5) 人机交互循环:通过迭代的“计划→验证→修改”过程,人工干预优化提示,提高输出质量。

关键创新:该论文的关键创新在于将XML提示、语法约束解码、定点语义和人机交互循环结合起来,形成一个完整的框架,用于解决LLM生成结构化输出的问题。通过数学证明,保证了该方法在特定条件下的收敛性。与现有方法相比,该方法能够更有效地控制LLM的输出结构,并减少人工干预。

关键设计:论文的关键设计包括:1) XML模式到CFG的转换方法,确保CFG能够完整地表达XML模式的约束。2) 约束解码算法,如何在保证解码效率的同时,满足CFG的约束。3) 任务感知收缩度量的定义,用于证明迭代指导的Banach式收敛性。4) 人机交互协议的设计,如何有效地利用人工反馈优化提示。

📊 实验亮点

论文通过理论分析证明了该方法在特定条件下的收敛性,并提供了一系列多层人机交互方案,展示了实际部署模式。实验结果表明,该方法能够有效地控制LLM的输出结构,并提高输出质量。虽然论文中没有给出具体的性能数据,但强调了该方法与语法对齐解码、链式验证和程序化提示等最新进展的联系。

🎯 应用场景

该研究成果可广泛应用于需要结构化数据生成的领域,例如:知识图谱构建、数据库查询、API调用、代码生成等。通过确保LLM输出的结构化和可控性,可以提高自动化系统的可靠性和效率,并减少人工干预的需求。未来,该方法可以扩展到其他结构化数据格式,例如JSON和YAML。

📄 摘要(原文)

Structured prompting with XML tags has emerged as an effective way to steer large language models (LLMs) toward parseable, schema-adherent outputs in real-world systems. We develop a logic-first treatment of XML prompting that unifies (i) grammar-constrained decoding, (ii) fixed-point semantics over lattices of hierarchical prompts, and (iii) convergent human-AI interaction loops. We formalize a complete lattice of XML trees under a refinement order and prove that monotone prompt-to-prompt operators admit least fixed points (Knaster-Tarski) that characterize steady-state protocols; under a task-aware contraction metric on trees, we further prove Banach-style convergence of iterative guidance. We instantiate these results with context-free grammars (CFGs) for XML schemas and show how constrained decoding guarantees well-formedness while preserving task performance. A set of multi-layer human-AI interaction recipes demonstrates practical deployment patterns, including multi-pass "plan $\to$ verify $\to$ revise" routines and agentic tool use. We provide mathematically complete proofs and tie our framework to recent advances in grammar-aligned decoding, chain-of-verification, and programmatic prompting.