A Pseudo-Semantic Loss for Autoregressive Models with Logical Constraints

📄 arXiv: 2312.03905v2 📥 PDF

作者: Kareem Ahmed, Kai-Wei Chang, Guy Van den Broeck

分类: cs.LG, cs.AI, cs.CL

发布日期: 2023-12-06 (更新: 2024-01-27)

备注: Updated detoxification experiments; moved example toxic generations to Github and added link


💡 一句话要点

提出伪语义损失,解决自回归模型中逻辑约束的难题,并应用于模型解毒。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经符号学习 自回归模型 逻辑约束 伪似然 模型解毒 语言模型 约束优化

📋 核心要点

  1. 现有神经符号学习方法难以处理自回归模型中的逻辑约束,因为计算约束似然性是#P-hard问题。
  2. 提出一种基于伪似然的局部近似方法,优化模型样本周围的约束似然性,实现高效的神经符号学习。
  3. 在数独、最短路径预测和语言模型解毒任务上验证了该方法,显著提升了模型输出的逻辑一致性和安全性。

📝 摘要(中文)

神经符号人工智能弥合了纯符号方法和神经学习方法之间的差距。这通常需要最大化符号约束相对于神经网络输出分布的似然性。通常假设这些输出分布是完全分解的。这限制了神经符号学习在更具表现力的自回归分布(例如,transformers)中的应用。在这种分布下,即使计算简单约束的似然性也是#P-hard问题。本文没有尝试在整个输出分布上强制执行约束,而是在其随机的局部近似上执行。更准确地说,本文优化了基于伪似然的近似下的约束似然性,该近似以模型样本为中心。本文的近似是分解的,允许重用子问题的解决方案,这是有效计算神经符号损失的主要原则。此外,它还是似然性的局部高保真近似,在模型样本周围表现出低熵和KL散度。本文在数独和最短路径预测(作为自回归生成)上评估了本文的方法,并观察到本文的方法极大地提高了基础模型预测逻辑一致输出的能力。本文还在大型语言模型的解毒任务上进行了评估。使用一个简单的约束来禁止一系列有毒词语,本文能够引导模型的输出远离有毒生成,与以前的方法相比,实现了SoTA的解毒效果。

🔬 方法详解

问题定义:论文旨在解决自回归模型中难以施加逻辑约束的问题。传统的神经符号学习方法通常假设输出分布是完全分解的,这对于像Transformer这样的自回归模型并不适用。在自回归模型中,计算即使是最简单的逻辑约束的似然性也是#P-hard问题,这使得直接优化变得不可行。

核心思路:论文的核心思路是避免直接在整个输出分布上强制执行约束,而是采用一种局部近似的方法。具体来说,论文围绕模型的一个样本,构建一个基于伪似然的局部近似分布,并在该近似分布上优化约束的似然性。由于这个近似分布是分解的,因此可以高效地计算约束似然性。

技术框架:整体框架包含以下几个步骤:1. 从自回归模型中采样一个输出序列。2. 基于该样本,构建一个伪似然近似分布。这个分布在样本附近具有高保真度,并且是分解的。3. 定义一个逻辑约束,例如禁止使用某些词语。4. 计算在该伪似然近似分布下,满足逻辑约束的概率。5. 使用梯度下降等方法,优化模型的参数,使得满足约束的概率最大化。

关键创新:最重要的创新点在于提出了基于伪似然的局部近似方法。与直接在整个输出分布上计算约束似然性相比,这种方法大大降低了计算复杂度,使得在自回归模型中应用神经符号学习成为可能。此外,该方法还具有局部性,只关注模型样本附近的分布,从而保证了优化的高效性。

关键设计:关键设计包括:1. 伪似然近似分布的构建方式,需要保证其在样本附近具有高保真度,并且是分解的。2. 逻辑约束的表示方式,需要能够方便地计算其在伪似然近似分布下的概率。3. 优化算法的选择,需要能够有效地优化模型的参数,使得满足约束的概率最大化。论文中使用了交叉熵损失函数,并结合梯度下降算法进行优化。

📊 实验亮点

实验结果表明,该方法在数独和最短路径预测任务中,显著提高了模型预测逻辑一致输出的能力。在语言模型解毒任务中,使用简单的禁用词约束,即可实现SoTA的解毒效果,证明了该方法在实际应用中的有效性和优越性。与之前的解毒方法相比,该方法具有更高的效率和更好的性能。

🎯 应用场景

该研究成果可广泛应用于需要逻辑一致性和安全性的自回归模型中,例如:知识图谱补全、代码生成、对话系统、文本摘要、机器翻译等。尤其在大型语言模型解毒方面,具有重要的应用价值,可以有效减少模型生成有害信息的风险,提升模型的社会责任感。

📄 摘要(原文)

Neuro-symbolic AI bridges the gap between purely symbolic and neural approaches to learning. This often requires maximizing the likelihood of a symbolic constraint w.r.t the neural network's output distribution. Such output distributions are typically assumed to be fully-factorized. This limits the applicability of neuro-symbolic learning to the more expressive autoregressive distributions, e.g., transformers. Under such distributions, computing the likelihood of even simple constraints is #P-hard. Instead of attempting to enforce the constraint on the entire output distribution, we propose to do so on a random, local approximation thereof. More precisely, we optimize the likelihood of the constraint under a pseudolikelihood-based approximation centered around a model sample. Our approximation is factorized, allowing the reuse of solutions to sub-problems, a main tenet for efficiently computing neuro-symbolic losses. Moreover, it is a local, high-fidelity approximation of the likelihood, exhibiting low entropy and KL-divergence around the model sample. We evaluate our approach on Sudoku and shortest-path prediction cast as autoregressive generation, and observe that we greatly improve upon the base model's ability to predict logically-consistent outputs. We also evaluate on the task of detoxifying large language models. Using a simple constraint disallowing a list of toxic words, we are able to steer the model's outputs away from toxic generations, achieving SoTA detoxification compared to previous approaches.