Schema Key Wording as an Instruction Channel in Structured Generation under Constrained Decoding

📄 arXiv: 2604.14862v1 📥 PDF

作者: Yifan Le

分类: cs.CL, cs.AI

发布日期: 2026-04-16

备注: 10 pages, 2 figures. Work in progress


💡 一句话要点

提出将Schema关键词作为指令通道,提升约束解码下结构化生成性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 结构化生成 约束解码 Schema关键词 指令通道 大型语言模型

📋 核心要点

  1. 现有结构化生成方法忽略了Schema关键词的语言表述对模型行为的影响,将其仅视为结构约束。
  2. 论文提出将Schema关键词视为隐式指令通道,与Prompt指令共同影响模型生成,构建多通道指令模型。
  3. 实验表明,不同模型家族对Schema和Prompt指令的敏感度不同,且指令通道间存在非加性交互效应。

📝 摘要(中文)

约束解码已被广泛应用于大型语言模型(LLMs)的结构化生成,以确保输出满足预定义的格式,如JSON和XML。然而,现有方法主要将schema视为纯粹的结构约束,忽略了其语言表述可能影响模型行为的可能性。本文研究了指令放置如何影响结构化生成中的模型性能,并表明仅仅改变schema关键词的措辞,而不修改提示或模型参数,就可以显著改变约束解码下的模型性能。基于此,我们提出将结构化生成重新解释为一个多通道指令问题,其中指令可以通过提示显式地传达,也可以在解码期间通过schema关键词隐式地传达。据我们所知,这是第一项系统地研究schema关键词表述如何作为隐式指令通道并影响约束解码下模型性能的工作。在多个数学推理基准上的实验表明,不同的模型家族对这些指令通道表现出不同的敏感性:Qwen模型始终受益于schema级别的指令,而LLaMA模型更依赖于提示级别的指导。我们进一步观察到指令通道之间存在非加性交互效应,表明组合多个通道并不总是能带来进一步的改进。这些发现表明,schema设计不仅决定了输出结构,还携带了指令信号,为LLMs中的结构化生成提供了一个新的视角。

🔬 方法详解

问题定义:现有方法在利用大型语言模型进行结构化生成时,主要关注如何通过约束解码确保输出符合预定义的格式(如JSON或XML),而忽略了Schema(例如JSON的键)的语言表述本身可能携带的指令信息。现有方法将Schema视为纯粹的结构约束,没有充分挖掘其作为指令通道的潜力。

核心思路:论文的核心思路是将结构化生成过程重新理解为一个多通道指令问题。除了传统的Prompt指令外,Schema关键词的措辞也可以作为一种隐式的指令信号,影响模型的生成行为。通过改变Schema关键词的表述方式,可以在不修改Prompt或模型参数的情况下,显著改变模型的性能。

技术框架:论文没有提出一个全新的技术框架,而是对现有结构化生成方法进行了一种新的视角解读。其核心在于强调Schema关键词作为指令通道的作用,并研究不同模型家族对不同指令通道的敏感性。实验部分主要通过修改Schema关键词的措辞,观察模型在不同数学推理任务上的性能变化。

关键创新:论文最重要的创新点在于首次系统地研究了Schema关键词的表述方式如何作为隐式指令通道影响约束解码下的模型性能。这为结构化生成提供了一个新的视角,即Schema设计不仅决定了输出结构,还携带了指令信号。

关键设计:论文的关键设计在于实验部分,通过精心设计的Schema关键词措辞,例如使用更明确的指令性词语,来观察模型性能的变化。同时,论文还研究了不同模型家族(如Qwen和LLaMA)对不同指令通道的敏感性,以及指令通道之间的交互效应。没有涉及具体的参数设置、损失函数或网络结构的设计。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Qwen模型更受益于Schema级别的指令,而LLaMA模型更依赖于Prompt级别的指导。同时,研究发现指令通道之间存在非加性交互效应,即简单地组合多个指令通道并不一定能带来性能的进一步提升。这些发现为如何有效利用不同指令通道提供了重要的指导。

🎯 应用场景

该研究成果可应用于各种需要结构化数据生成的场景,例如知识图谱构建、数据库查询、API调用等。通过优化Schema关键词的表述,可以提升LLM在这些任务中的性能和可靠性,降低人工干预成本,并为LLM的结构化生成提供更有效的指导。

📄 摘要(原文)

Constrained decoding has been widely adopted for structured generation with large language models (LLMs), ensuring that outputs satisfy predefined formats such as JSON and XML. However, existing approaches largely treat schemas as purely structural constraints and overlook the possibility that their linguistic formulation may affect model behavior. In this work, we study how instruction placement influences model performance in structured generation and show that merely changing the wording of schema keys, without modifying the prompt or model parameters, can significantly alter model performance under constrained decoding. Based on this observation, we propose to reinterpret structured generation as a multi-channel instruction problem, where instructions can be conveyed explicitly through prompts and implicitly through schema keys during decoding. To the best of our knowledge, this is the first work to systematically study how schema key formulation acts as an implicit instruction channel and affects model performance under constrained decoding. Experiments on multiple mathematical reasoning benchmarks show that different model families exhibit distinct sensitivities to these instruction channels: Qwen models consistently benefit from schema-level instructions, while LLaMA models rely more heavily on prompt-level guidance. We further observe non-additive interaction effects between instruction channels, showing that combining multiple channels does not always lead to further improvement. These findings suggest that schema design not only determines output structure, but also carries instruction signals, offering a new perspective on structured generation in LLMs.