Natural Language Edge Labelling: Decoupling Intent from Execution in Structured LM Reasoning
作者: Abhinav Madahar
分类: cs.AI
发布日期: 2025-10-06
💡 一句话要点
提出自然语言边缘标签(NLEL),解耦结构化LM推理中的意图与执行,提升可控性和可审计性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自然语言推理 可控推理 可审计性 意图解耦 边缘标签
📋 核心要点
- 现有结构化LM推理方法将意图(下一步做什么)与执行(如何做)耦合,缺乏细粒度控制,导致效率低和难以调试。
- NLEL通过在搜索边缘附加自然语言指令,并将其转换为可控的参数向量,实现意图与执行的解耦。
- 实验表明,NLEL在多个基准测试中,在相似的计算预算下,提高了准确率和计算效率。
📝 摘要(中文)
结构化LM推理(如思维链、自洽性、思维树)的控制器常常将下一步尝试什么与如何执行它混淆,仅暴露粗粒度的全局控制旋钮,导致脆弱、计算低效且难以审计的行为。我们引入自然语言边缘标签(NLEL),一个标签器-调谐器叠加层,它将自由形式的自然语言指令附加到每个搜索边缘,并将其转换为模式约束的控制向量,用于解码、搜索(分支配额、探索率β)、生成束大小、检索混合和验证过程。标签器Λ从父状态和紧凑上下文中发出标签;调谐器Ψ将(P, L, C)映射到Π,具有严格的模式验证和围绕安全默认值的信任区域投影。下游选择仍然是ToT风格,得分S=μ+βσ和深度退火β。我们证明NLEL严格地推广了CoT/ToT,证明了标签条件束下top-k选择的随时单调性,并通过控制向量失真来限制选择器不足,为信任区域和验证过程等保护措施提供了决策相关的理由。我们将Ψ实例化为一个仅提示的JSON参数发射器,并预先注册了在GSM8K、MATH(子集)、StrategyQA和ARC-Challenge上的评估,具有计算感知报告(success@compute,tokens-per-success)以及对Λ、Ψ、信任区域半径和控制量化的消融研究;预先注册的预测预计在可比的token预算下提高准确性,并在约束下提高success@compute。NLEL提供了一个可解释的、模型无关的接口,它将意图与执行分离,以实现可控的、可审计的LM推理。
🔬 方法详解
问题定义:现有结构化语言模型推理方法,如CoT和ToT,在控制推理过程时存在意图与执行耦合的问题。具体来说,控制器难以精细地控制搜索策略、生成束大小等参数,导致推理过程效率低下、难以审计和调试。现有方法缺乏一个清晰的接口来表达推理意图,并将其转化为具体的执行参数。
核心思路:NLEL的核心思路是将推理意图与执行参数解耦。通过引入一个标签器-调谐器叠加层,允许用户使用自然语言指令来描述推理意图,然后由调谐器将这些指令转化为具体的控制参数。这种解耦使得用户可以更灵活地控制推理过程,并更容易理解和调试推理行为。
技术框架:NLEL包含两个主要模块:标签器 (Λ) 和调谐器 (Ψ)。标签器根据父状态和上下文生成自然语言标签,这些标签描述了下一步的推理意图。调谐器将这些标签转化为具体的控制向量 (Π),用于控制解码、搜索、生成束大小等参数。下游选择仍然采用ToT风格,使用得分 S=μ+βσ 和深度退火 β 来选择最佳路径。整体流程是:父状态 -> 标签器 (Λ) -> 自然语言标签 -> 调谐器 (Ψ) -> 控制向量 (Π) -> 执行推理。
关键创新:NLEL的关键创新在于引入了自然语言边缘标签,将推理意图显式地表达出来,并与执行参数解耦。这使得用户可以更直观地控制推理过程,并更容易理解和调试推理行为。此外,NLEL还提供了一个模型无关的接口,可以应用于不同的语言模型和推理框架。
关键设计:调谐器 (Ψ) 被设计为一个 prompt-only JSON Parameter Emitter,它接收自然语言标签作为输入,并输出一个 JSON 格式的控制向量。为了保证控制向量的安全性,NLEL采用了严格的模式验证和信任区域投影,确保控制向量不会超出安全范围。此外,NLEL还使用了深度退火的探索率 β,以平衡探索和利用。
📊 实验亮点
论文在GSM8K、MATH、StrategyQA和ARC-Challenge等基准测试上进行了评估,结果表明NLEL在相似的token预算下,提高了准确率和计算效率。消融实验表明,标签器、调谐器和信任区域半径等参数对NLEL的性能有重要影响。预注册的预测表明,NLEL在约束条件下可以提高success@compute。
🎯 应用场景
NLEL可应用于各种需要可控和可审计的语言模型推理场景,例如:数学问题求解、策略游戏、代码生成等。通过NLEL,用户可以更灵活地控制推理过程,并更容易理解和调试推理行为,从而提高语言模型的性能和可靠性。此外,NLEL还可以用于自动化推理策略的探索和优化。
📄 摘要(原文)
Controllers for structured LM reasoning (e.g., Chain-of-Thought, self-consistency, and Tree-of-Thoughts) often entangle what to try next with how to execute it, exposing only coarse global knobs and yielding brittle, compute-inefficient, and hard-to-audit behavior. We introduce Natural Language Edge Labelling (NLEL), a labeller-tuner overlay that attaches a free-form natural-language directive to each search edge and translates it into a schema-bounded control vector for decoding, search (branch quotas, exploration $β$), generation bundle size, retrieval mixtures, and verification passes. A labeller $Λ$ emits labels from the parent state and a compact context; a tuner $Ψ$ maps $(P, L, C)\to Π$, with strict schema validation and trust-region projection around safe defaults. Downstream selection remains ToT-style with score $S=μ+βσ$ and depth-annealed $β$. We show NLEL strictly generalizes CoT/ToT, prove an anytime-monotonicity property for top-$k$ selection under label-conditioned bundles, and bound selector shortfall by control-vector distortion, providing decision-relevant justification for guards like trust regions and verification passes. We instantiate $Ψ$ as a prompt-only JSON Parameter Emitter and preregister an evaluation on GSM8K, MATH (subset), StrategyQA, and ARC-Challenge with compute-aware reporting (success@compute, tokens-per-success) and ablations over $Λ$, $Ψ$, trust-region radius, and control quantization; preregistered forecasts anticipate accuracy gains at comparable token budgets and improved success@compute under constraints. NLEL offers an interpretable, model-agnostic interface that separates intent from execution for controllable, auditable LM inference.