XML Prompting as Grammar-Constrained Interaction: Fixed-Point Semantics, Convergence Guarantees, and Human-AI Protocols

作者: Faruk Alpay, Taylan Alpay

分类: cs.PL, cs.AI, cs.CL

发布日期: 2025-09-09

备注: 7 pages, multiple XML prompts

💡 一句话要点

提出基于XML提示的语法约束交互框架，保障LLM输出结构化和可控性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: XML提示 语法约束 人机交互 不动点语义 大型语言模型

📋 核心要点

现有LLM在生成结构化数据时缺乏有效约束，难以保证输出符合预定义的模式和语法。
论文提出XML提示作为一种语法约束交互方式，利用不动点语义和收敛性保证实现可控的LLM输出。
通过人机交互实验验证了该框架的有效性，展示了其在多轮交互和工具使用中的实际应用。

📝 摘要（中文）

本文提出了一种基于XML标签的结构化提示方法，旨在引导大型语言模型（LLM）生成符合模式的可解析输出，从而应用于实际系统。该研究从逻辑角度出发，统一了（i）语法约束解码，（ii）层级提示格上的不动点语义，以及（iii）收敛的人机交互循环。论文形式化了XML树在细化顺序下的完备格，并证明了单调提示到提示算子具有最小不动点（Knaster-Tarski定理），从而表征了稳态协议。在树上的任务感知收缩度量下，进一步证明了迭代指导的Banach式收敛。通过上下文无关文法（CFG）实例化XML模式，展示了约束解码如何在保证任务性能的同时确保良好形式。一系列多层人机交互方案演示了实际部署模式，包括多通道“计划→验证→修改”例程和代理工具的使用。论文提供了数学上完整的证明，并将该框架与语法对齐解码、链式验证和程序化提示等最新进展联系起来。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）在生成结构化数据时，例如XML格式的数据，往往难以保证输出的格式正确性和符合预定义的schema。传统的prompting方法缺乏对生成过程的有效约束，导致输出结果可能不符合语法规则，难以直接应用于实际系统。因此，如何引导LLM生成parseable、schema-adherent的结构化输出是一个重要的挑战。

核心思路：论文的核心思路是将XML提示视为一种语法约束的交互方式，通过在prompt中嵌入XML标签来引导LLM的生成过程。更进一步，论文将这种交互过程形式化为一个不动点问题，并利用不动点定理来保证交互过程的收敛性。通过这种方式，可以确保LLM在经过多轮交互后，最终能够生成符合要求的结构化输出。

技术框架：该框架主要包含以下几个关键模块：1) XML提示生成器：负责根据预定义的XML schema生成包含XML标签的prompt。2) 语法约束解码器：利用上下文无关文法（CFG）对LLM的解码过程进行约束，确保生成的token序列符合XML语法。3) 人机交互循环：通过多轮交互，不断优化prompt，直到LLM生成满足要求的结构化输出。4) 不动点分析器：利用不动点定理分析交互过程的收敛性，保证最终能够得到稳定的结果。

关键创新：该论文最重要的技术创新点在于将XML提示形式化为一个不动点问题，并利用不动点定理来保证交互过程的收敛性。与传统的prompting方法相比，该方法能够提供更强的理论保证，确保LLM在经过多轮交互后，最终能够生成符合要求的结构化输出。此外，论文还提出了一种基于上下文无关文法的语法约束解码器，能够有效地限制LLM的生成空间，避免生成不符合语法规则的输出。

关键设计：论文的关键设计包括：1) XML schema的表示方法：使用上下文无关文法（CFG）来表示XML schema，方便进行语法约束解码。2) 提示到提示算子的定义：定义了一个单调的提示到提示算子，用于描述人机交互过程中prompt的更新规则。3) 收缩度量的选择：选择了一个任务感知的收缩度量，用于衡量LLM生成结果与目标结果之间的距离，从而保证迭代指导的Banach式收敛。

📊 实验亮点

论文通过实验验证了该框架的有效性，展示了其在多轮人机交互和工具使用中的实际应用。实验结果表明，该方法能够有效地引导LLM生成符合要求的结构化输出，并且具有良好的收敛性。具体性能数据未知，但论文强调了该方法在保证well-formedness的同时，能够保持任务性能。

🎯 应用场景

该研究成果可应用于需要结构化数据生成的各种场景，例如知识图谱构建、自动代码生成、自然语言理解等。通过确保LLM输出的结构化和可控性，可以提高下游任务的性能和可靠性，并促进人机协作。

📄 摘要（原文）

Structured prompting with XML tags has emerged as an effective way to steer large language models (LLMs) toward parseable, schema-adherent outputs in real-world systems. We develop a logic-first treatment of XML prompting that unifies (i) grammar-constrained decoding, (ii) fixed-point semantics over lattices of hierarchical prompts, and (iii) convergent human-AI interaction loops. We formalize a complete lattice of XML trees under a refinement order and prove that monotone prompt-to-prompt operators admit least fixed points (Knaster-Tarski) that characterize steady-state protocols; under a task-aware contraction metric on trees, we further prove Banach-style convergence of iterative guidance. We instantiate these results with context-free grammars (CFGs) for XML schemas and show how constrained decoding guarantees well-formedness while preserving task performance. A set of multi-layer human-AI interaction recipes demonstrates practical deployment patterns, including multi-pass "plan $\to$ verify $\to$ revise" routines and agentic tool use. We provide mathematically complete proofs and tie our framework to recent advances in grammar-aligned decoding, chain-of-verification, and programmatic prompting.

XML Prompting as Grammar-Constrained Interaction: Fixed-Point Semantics, Convergence Guarantees, and Human-AI Protocols

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理