LatentRefusal: Latent-Signal Refusal for Unanswerable Text-to-SQL Queries

📄 arXiv: 2601.10398v1 📥 PDF

作者: Xuancheng Ren, Shijing Hu, Zhihui Lu, Jiangqi Huang, Qiang Duan

分类: cs.AI

发布日期: 2026-01-15


💡 一句话要点

提出LatentRefusal,通过隐信号拒识机制解决Text-to-SQL系统中不可回答查询的安全问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Text-to-SQL 大型语言模型 安全拒识 可回答性预测 隐信号 Tri-Residual Gated Encoder

📋 核心要点

  1. 现有Text-to-SQL系统在处理不可回答或欠指定查询时,容易产生误导性结果,威胁系统安全。
  2. LatentRefusal通过分析LLM的中间层激活,预测查询的可回答性,实现安全拒识,避免错误执行。
  3. 实验表明,LatentRefusal在多个基准测试中显著提升了F1值,且探测开销极低,具有实用性。

📝 摘要(中文)

在基于LLM的Text-to-SQL系统中,不可回答和欠指定的用户查询不仅可能生成不正确的文本,还可能生成可执行的程序,从而产生误导性结果或违反安全约束,这对安全部署构成了主要障碍。现有的拒识策略要么依赖于输出级的指令遵循,由于模型幻觉而显得脆弱,要么估计输出不确定性,这增加了复杂性和开销。为了解决这个挑战,我们将Text-to-SQL系统中的安全拒识形式化为一个可回答性门控问题,并提出了LatentRefusal,一种隐信号拒识机制,它从大型语言模型的中间隐藏激活中预测查询的可回答性。我们引入了Tri-Residual Gated Encoder,一种轻量级的探测架构,以抑制模式噪声并放大指示不可回答性的问题-模式不匹配的稀疏、局部线索。在各种模糊和不可回答设置下进行的大量实证评估,以及消融研究和可解释性分析,证明了该方法的有效性,并表明LatentRefusal为Text-to-SQL系统提供了一个可附加且高效的安全层。在四个基准测试中,LatentRefusal在两个backbone上将平均F1提高到88.5%,同时增加了大约2毫秒的探测开销。

🔬 方法详解

问题定义:论文旨在解决Text-to-SQL系统中,大型语言模型(LLM)在面对不可回答或欠指定查询时,可能生成错误SQL语句并导致误导性结果的问题。现有方法主要依赖于输出层的指令遵循或输出不确定性估计,前者易受模型幻觉影响,后者则引入了额外的复杂性和计算开销。

核心思路:论文的核心思路是将安全拒识问题转化为一个可回答性门控问题,即在SQL语句生成之前,先判断查询是否可回答。通过分析LLM在处理查询过程中的中间层隐藏状态,提取指示查询-schema不匹配的隐信号,从而预测查询的可回答性。这种方法避免了对输出结果的直接依赖,降低了模型幻觉的影响。

技术框架:LatentRefusal主要包含两个阶段:首先,使用LLM对Text-to-SQL查询进行编码,得到中间层的隐藏激活。然后,将这些隐藏激活输入到Tri-Residual Gated Encoder中进行处理,提取与查询-schema不匹配相关的特征。Tri-Residual Gated Encoder的输出用于预测查询的可回答性,并决定是否执行SQL语句。

关键创新:该方法的核心创新在于利用LLM的中间层隐藏状态作为可回答性的信号源。相比于直接分析输出结果,中间层隐藏状态包含了更丰富的语义信息,且不易受到模型幻觉的干扰。此外,Tri-Residual Gated Encoder的设计能够有效地抑制schema噪声,并放大指示不可回答性的稀疏、局部线索。

关键设计:Tri-Residual Gated Encoder是关键组件,它采用残差连接和门控机制,以增强对关键特征的提取能力。具体来说,它包含多个残差块,每个残差块由多个线性层、激活函数和门控单元组成。门控单元用于控制信息的流动,从而抑制噪声并突出关键特征。损失函数的设计目标是最大化可回答查询和不可回答查询之间的区分度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LatentRefusal在四个Text-to-SQL基准测试中均取得了显著的性能提升。在两个backbone模型上,平均F1值提高了到88.5%。同时,LatentRefusal的探测开销极低,仅增加了约2毫秒的延迟,表明其具有很高的实用价值。消融实验验证了Tri-Residual Gated Encoder的有效性。

🎯 应用场景

LatentRefusal可应用于各种Text-to-SQL系统,尤其是在对安全性要求较高的场景下,例如金融、医疗等领域。通过提前拒识不可回答的查询,可以避免因错误SQL语句执行而导致的数据泄露或错误决策,提高系统的可靠性和安全性。该方法还可扩展到其他自然语言处理任务中,例如问答系统、对话系统等。

📄 摘要(原文)

In LLM-based text-to-SQL systems, unanswerable and underspecified user queries may generate not only incorrect text but also executable programs that yield misleading results or violate safety constraints, posing a major barrier to safe deployment. Existing refusal strategies for such queries either rely on output-level instruction following, which is brittle due to model hallucinations, or estimate output uncertainty, which adds complexity and overhead. To address this challenge, we formalize safe refusal in text-to-SQL systems as an answerability-gating problem and propose LatentRefusal, a latent-signal refusal mechanism that predicts query answerability from intermediate hidden activations of a large language model. We introduce the Tri-Residual Gated Encoder, a lightweight probing architecture, to suppress schema noise and amplify sparse, localized cues of question-schema mismatch that indicate unanswerability. Extensive empirical evaluations across diverse ambiguous and unanswerable settings, together with ablation studies and interpretability analyses, demonstrate the effectiveness of the proposed approach and show that LatentRefusal provides an attachable and efficient safety layer for text-to-SQL systems. Across four benchmarks, LatentRefusal improves average F1 to 88.5 percent on both backbones while adding approximately 2 milliseconds of probe overhead.