Natural Language Edge Labelling: Decoupling Intent from Execution in Structured LM Reasoning

作者: Abhinav Madahar

分类: cs.AI

发布日期: 2025-10-06

💡 一句话要点

提出自然语言边缘标签（NLEL），解耦结构化LM推理中的意图与执行，提升可控性和可审计性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自然语言推理 可控推理 可审计性 意图解耦 边缘标签

📋 核心要点

现有结构化LM推理方法将意图（下一步做什么）与执行（如何做）耦合，缺乏细粒度控制，导致效率低和难以调试。
NLEL通过在搜索边缘附加自然语言指令，并将其转换为可控的参数向量，实现意图与执行的解耦。
实验表明，NLEL在多个基准测试中，在相似的计算预算下，提高了准确率和计算效率。

📝 摘要（中文）

结构化LM推理（如思维链、自洽性、思维树）的控制器常常将下一步尝试什么与如何执行它混淆，仅暴露粗粒度的全局控制旋钮，导致脆弱、计算低效且难以审计的行为。我们引入自然语言边缘标签（NLEL），一个标签器-调谐器叠加层，它将自由形式的自然语言指令附加到每个搜索边缘，并将其转换为模式约束的控制向量，用于解码、搜索（分支配额、探索率β）、生成束大小、检索混合和验证过程。标签器Λ从父状态和紧凑上下文中发出标签；调谐器Ψ将(P, L, C)映射到Π，具有严格的模式验证和围绕安全默认值的信任区域投影。下游选择仍然是ToT风格，得分S=μ+βσ和深度退火β。我们证明NLEL严格地推广了CoT/ToT，证明了标签条件束下top-k选择的随时单调性，并通过控制向量失真来限制选择器不足，为信任区域和验证过程等保护措施提供了决策相关的理由。我们将Ψ实例化为一个仅提示的JSON参数发射器，并预先注册了在GSM8K、MATH（子集）、StrategyQA和ARC-Challenge上的评估，具有计算感知报告（success@compute，tokens-per-success）以及对Λ、Ψ、信任区域半径和控制量化的消融研究；预先注册的预测预计在可比的token预算下提高准确性，并在约束下提高success@compute。NLEL提供了一个可解释的、模型无关的接口，它将意图与执行分离，以实现可控的、可审计的LM推理。

🔬 方法详解

问题定义：现有结构化语言模型推理方法，如CoT和ToT，在控制推理过程时存在意图与执行耦合的问题。具体来说，控制器难以精细地控制搜索策略、生成束大小等参数，导致推理过程效率低下、难以审计和调试。现有方法缺乏一个清晰的接口来表达推理意图，并将其转化为具体的执行参数。

核心思路：NLEL的核心思路是将推理意图与执行参数解耦。通过引入一个标签器-调谐器叠加层，允许用户使用自然语言指令来描述推理意图，然后由调谐器将这些指令转化为具体的控制参数。这种解耦使得用户可以更灵活地控制推理过程，并更容易理解和调试推理行为。

技术框架：NLEL包含两个主要模块：标签器 (Λ) 和调谐器 (Ψ)。标签器根据父状态和上下文生成自然语言标签，这些标签描述了下一步的推理意图。调谐器将这些标签转化为具体的控制向量 (Π)，用于控制解码、搜索、生成束大小等参数。下游选择仍然采用ToT风格，使用得分 S=μ+βσ 和深度退火 β 来选择最佳路径。整体流程是：父状态 -> 标签器 (Λ) -> 自然语言标签 -> 调谐器 (Ψ) -> 控制向量 (Π) -> 执行推理。

关键创新：NLEL的关键创新在于引入了自然语言边缘标签，将推理意图显式地表达出来，并与执行参数解耦。这使得用户可以更直观地控制推理过程，并更容易理解和调试推理行为。此外，NLEL还提供了一个模型无关的接口，可以应用于不同的语言模型和推理框架。

关键设计：调谐器 (Ψ) 被设计为一个 prompt-only JSON Parameter Emitter，它接收自然语言标签作为输入，并输出一个 JSON 格式的控制向量。为了保证控制向量的安全性，NLEL采用了严格的模式验证和信任区域投影，确保控制向量不会超出安全范围。此外，NLEL还使用了深度退火的探索率 β，以平衡探索和利用。

📊 实验亮点

论文在GSM8K、MATH、StrategyQA和ARC-Challenge等基准测试上进行了评估，结果表明NLEL在相似的token预算下，提高了准确率和计算效率。消融实验表明，标签器、调谐器和信任区域半径等参数对NLEL的性能有重要影响。预注册的预测表明，NLEL在约束条件下可以提高success@compute。

🎯 应用场景

NLEL可应用于各种需要可控和可审计的语言模型推理场景，例如：数学问题求解、策略游戏、代码生成等。通过NLEL，用户可以更灵活地控制推理过程，并更容易理解和调试推理行为，从而提高语言模型的性能和可靠性。此外，NLEL还可以用于自动化推理策略的探索和优化。

📄 摘要（原文）

Controllers for structured LM reasoning (e.g., Chain-of-Thought, self-consistency, and Tree-of-Thoughts) often entangle what to try next with how to execute it, exposing only coarse global knobs and yielding brittle, compute-inefficient, and hard-to-audit behavior. We introduce Natural Language Edge Labelling (NLEL), a labeller-tuner overlay that attaches a free-form natural-language directive to each search edge and translates it into a schema-bounded control vector for decoding, search (branch quotas, exploration $β$), generation bundle size, retrieval mixtures, and verification passes. A labeller $Λ$ emits labels from the parent state and a compact context; a tuner $Ψ$ maps $(P, L, C)\to Π$, with strict schema validation and trust-region projection around safe defaults. Downstream selection remains ToT-style with score $S=μ+βσ$ and depth-annealed $β$. We show NLEL strictly generalizes CoT/ToT, prove an anytime-monotonicity property for top-$k$ selection under label-conditioned bundles, and bound selector shortfall by control-vector distortion, providing decision-relevant justification for guards like trust regions and verification passes. We instantiate $Ψ$ as a prompt-only JSON Parameter Emitter and preregister an evaluation on GSM8K, MATH (subset), StrategyQA, and ARC-Challenge with compute-aware reporting (success@compute, tokens-per-success) and ablations over $Λ$, $Ψ$, trust-region radius, and control quantization; preregistered forecasts anticipate accuracy gains at comparable token budgets and improved success@compute under constraints. NLEL offers an interpretable, model-agnostic interface that separates intent from execution for controllable, auditable LM inference.

Natural Language Edge Labelling: Decoupling Intent from Execution in Structured LM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理