NCO: A Versatile Plug-in for Handling Negative Constraints in Decoding
作者: Hyundong Jin, Yo-Sub Han
分类: cs.CL, cs.AI
发布日期: 2026-05-11
🔗 代码/项目: GITHUB
💡 一句话要点
提出NCO解码策略,通过在线模式匹配高效处理大语言模型中的多重负面约束
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 约束解码 在线模式匹配 内容安全 推理优化 正则表达式
📋 核心要点
- 现有约束解码方法在处理多个复杂硬约束或正则约束时,常因自动机状态空间爆炸导致计算开销巨大,且标准正则引擎难以支持复杂的逻辑运算。
- NCO提出一种在线模式匹配机制,通过在解码过程中动态处理约束,避免了预先构建庞大自动机的需求,从而有效解决了状态爆炸问题。
- 实验表明,NCO在保持推理效率的同时,能有效抑制PII和不当内容,且与主流采样算法及束搜索策略具有良好的兼容性。
📝 摘要(中文)
控制大语言模型(LLM)以防止生成不当内容(如亵渎语、个人隐私信息PII)至关重要。现有方法多依赖后处理或重采样,而近期研究转向解码阶段的约束控制以降低计算成本并提升质量。然而,处理多个硬约束或正则表达式约束时,传统方法常需构建庞大的自动机,导致状态爆炸且难以实现补集与交集运算。为此,本文提出NCO(Negative Constraint Optimization),一种在解码过程中执行在线模式匹配的策略。NCO无需构建巨大的自动机,有效降低了计算开销,且完全兼容标准推理策略(如采样和束搜索),并支持概率抑制的软掩码。实验证明,NCO在PII和亵渎语过滤等实际任务中表现优异。
🔬 方法详解
问题定义:论文旨在解决大语言模型在生成过程中,如何高效地强制执行多个负面约束(如禁止特定词汇或符合特定正则模式的字符串)。现有方法通常将约束转化为单一自动机,但当约束数量增加时,自动机规模呈指数级增长,导致内存和计算瓶颈。
核心思路:NCO的核心思想是将“预先构建全量自动机”转变为“在线模式匹配”。通过在解码的每一步实时检查候选Token是否违反约束,从而在不牺牲模型生成能力的前提下,实现对复杂约束的实时过滤。
技术框架:NCO作为一个插件集成在解码循环中。在每一步生成时,它接收当前的Token序列,利用在线匹配算法评估候选Token是否会导致违反预定义的硬约束或正则模式,并据此调整Logits分布。
关键创新:最重要的创新在于解耦了约束逻辑与自动机状态空间。NCO不需要显式地对所有约束进行交集或补集运算来构建单一状态机,而是通过在线匹配逻辑直接处理约束集合,避免了状态爆炸。
关键设计:NCO支持硬约束(完全禁止)和软掩码(概率抑制)。其设计允许与束搜索(Beam Search)及各种采样策略无缝集成,通过在Logits层进行掩码操作,确保生成的Token序列始终符合预设的负面约束条件。
📊 实验亮点
实验结果显示,NCO在处理多重复杂约束时,相比于传统的自动机构建方法,显著降低了内存占用和推理延迟。在PII过滤和亵渎语抑制任务中,NCO在保持模型生成流畅度的同时,实现了极高的约束满足率,且在不同规模的模型和采样策略下均表现出极强的鲁棒性。
🎯 应用场景
NCO适用于对内容安全性要求极高的场景,如企业级LLM部署、自动化客服系统、内容审核平台等。它能有效防止模型泄露PII(如身份证号、电话号码)或生成亵渎性语言,在保障生成质量的同时,显著降低了内容合规性检查的计算成本,具有广泛的工业应用价值。
📄 摘要(原文)
Controlling Large Language Models (LLMs) to prevent the generation of undesirable content, such as profanity and personally identifiable information (PII), has become increasingly critical. While earlier approaches relied on post-processing or resampling, recent research has shifted towards constrained decoding methods that control outputs during generation to mitigate high computational costs and quality degradation. However, preventing multiple forbidden hard constraints or regex constraints from appearing anywhere in the output is computationally challenging. A straightforward solution is to convert these constraints into a single automaton that tracks all forbidden patterns during decoding, but this often becomes impractically large. Standard regex engines also do not readily support the operations needed to build such a constraint, such as complement and intersection. In order to address these limitations, we propose NCO, a decoding strategy that performs online pattern matching over finite hard constraints and regex constraints, reducing computational overhead without inducing state explosion. NCO is fully compatible with standard inference strategies, including various sampling methods and beam search, while also supporting soft masking for probabilistic suppression. We empirically demonstrate its effectiveness across practical tasks, including PII and profanity suppression. Our implementation is available at https://github.com/hyundong98/NCO-Decoding.git .