XML Prompting as Grammar-Constrained Interaction: Fixed-Point Semantics, Convergence Guarantees, and Human-AI Protocols

📄 arXiv: 2509.08182v1 📥 PDF

作者: Faruk Alpay, Taylan Alpay

分类: cs.PL, cs.AI, cs.CL

发布日期: 2025-09-09

备注: 7 pages, multiple XML prompts


💡 一句话要点

提出基于XML提示的语法约束交互框架,保障LLM输出结构化和可控性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: XML提示 语法约束 人机交互 不动点语义 大型语言模型

📋 核心要点

  1. 现有LLM在生成结构化数据时缺乏有效约束,难以保证输出符合预定义的模式和语法。
  2. 论文提出XML提示作为一种语法约束交互方式,利用不动点语义和收敛性保证实现可控的LLM输出。
  3. 通过人机交互实验验证了该框架的有效性,展示了其在多轮交互和工具使用中的实际应用。

📝 摘要(中文)

本文提出了一种基于XML标签的结构化提示方法,旨在引导大型语言模型(LLM)生成符合模式的可解析输出,从而应用于实际系统。该研究从逻辑角度出发,统一了(i)语法约束解码,(ii)层级提示格上的不动点语义,以及(iii)收敛的人机交互循环。论文形式化了XML树在细化顺序下的完备格,并证明了单调提示到提示算子具有最小不动点(Knaster-Tarski定理),从而表征了稳态协议。在树上的任务感知收缩度量下,进一步证明了迭代指导的Banach式收敛。通过上下文无关文法(CFG)实例化XML模式,展示了约束解码如何在保证任务性能的同时确保良好形式。一系列多层人机交互方案演示了实际部署模式,包括多通道“计划→验证→修改”例程和代理工具的使用。论文提供了数学上完整的证明,并将该框架与语法对齐解码、链式验证和程序化提示等最新进展联系起来。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在生成结构化数据时,例如XML格式的数据,往往难以保证输出的格式正确性和符合预定义的schema。传统的prompting方法缺乏对生成过程的有效约束,导致输出结果可能不符合语法规则,难以直接应用于实际系统。因此,如何引导LLM生成parseable、schema-adherent的结构化输出是一个重要的挑战。

核心思路:论文的核心思路是将XML提示视为一种语法约束的交互方式,通过在prompt中嵌入XML标签来引导LLM的生成过程。更进一步,论文将这种交互过程形式化为一个不动点问题,并利用不动点定理来保证交互过程的收敛性。通过这种方式,可以确保LLM在经过多轮交互后,最终能够生成符合要求的结构化输出。

技术框架:该框架主要包含以下几个关键模块:1) XML提示生成器:负责根据预定义的XML schema生成包含XML标签的prompt。2) 语法约束解码器:利用上下文无关文法(CFG)对LLM的解码过程进行约束,确保生成的token序列符合XML语法。3) 人机交互循环:通过多轮交互,不断优化prompt,直到LLM生成满足要求的结构化输出。4) 不动点分析器:利用不动点定理分析交互过程的收敛性,保证最终能够得到稳定的结果。

关键创新:该论文最重要的技术创新点在于将XML提示形式化为一个不动点问题,并利用不动点定理来保证交互过程的收敛性。与传统的prompting方法相比,该方法能够提供更强的理论保证,确保LLM在经过多轮交互后,最终能够生成符合要求的结构化输出。此外,论文还提出了一种基于上下文无关文法的语法约束解码器,能够有效地限制LLM的生成空间,避免生成不符合语法规则的输出。

关键设计:论文的关键设计包括:1) XML schema的表示方法:使用上下文无关文法(CFG)来表示XML schema,方便进行语法约束解码。2) 提示到提示算子的定义:定义了一个单调的提示到提示算子,用于描述人机交互过程中prompt的更新规则。3) 收缩度量的选择:选择了一个任务感知的收缩度量,用于衡量LLM生成结果与目标结果之间的距离,从而保证迭代指导的Banach式收敛。

📊 实验亮点

论文通过实验验证了该框架的有效性,展示了其在多轮人机交互和工具使用中的实际应用。实验结果表明,该方法能够有效地引导LLM生成符合要求的结构化输出,并且具有良好的收敛性。具体性能数据未知,但论文强调了该方法在保证well-formedness的同时,能够保持任务性能。

🎯 应用场景

该研究成果可应用于需要结构化数据生成的各种场景,例如知识图谱构建、自动代码生成、自然语言理解等。通过确保LLM输出的结构化和可控性,可以提高下游任务的性能和可靠性,并促进人机协作。

📄 摘要(原文)

Structured prompting with XML tags has emerged as an effective way to steer large language models (LLMs) toward parseable, schema-adherent outputs in real-world systems. We develop a logic-first treatment of XML prompting that unifies (i) grammar-constrained decoding, (ii) fixed-point semantics over lattices of hierarchical prompts, and (iii) convergent human-AI interaction loops. We formalize a complete lattice of XML trees under a refinement order and prove that monotone prompt-to-prompt operators admit least fixed points (Knaster-Tarski) that characterize steady-state protocols; under a task-aware contraction metric on trees, we further prove Banach-style convergence of iterative guidance. We instantiate these results with context-free grammars (CFGs) for XML schemas and show how constrained decoding guarantees well-formedness while preserving task performance. A set of multi-layer human-AI interaction recipes demonstrates practical deployment patterns, including multi-pass "plan $\to$ verify $\to$ revise" routines and agentic tool use. We provide mathematically complete proofs and tie our framework to recent advances in grammar-aligned decoding, chain-of-verification, and programmatic prompting.