Evaluating Implicit Regulatory Compliance in LLM Tool Invocation via Logic-Guided Synthesis
作者: Da Song, Yuheng Huang, Boqi Chen, Tianshuo Cong, Randy Goebel, Lei Ma, Foutse Khomh
分类: cs.CL, cs.AI, cs.CR, cs.LO, cs.SE
发布日期: 2026-01-13
备注: 11 pages, 3 figures
💡 一句话要点
提出LogiSafetyGen框架与LogiSafetyBench基准,评估LLM工具调用中的隐式合规性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 工具调用 监管合规 线性时序逻辑 模糊测试
📋 核心要点
- 现有LLM工具调用评估缺乏对隐式监管合规性的考量,无法保证在高风险场景下的安全性。
- LogiSafetyGen框架将非结构化法规转化为LTL预言机,并使用逻辑引导的模糊测试生成安全轨迹。
- LogiSafetyBench基准测试表明,大型LLM在追求功能正确性的同时,可能牺牲安全性,导致不合规行为。
📝 摘要(中文)
大型语言模型(LLM)集成到自主代理中实现了复杂的工具使用,但在高风险领域,这些系统必须严格遵守监管标准,而不仅仅是功能上的正确性。现有基准通常忽略了隐式监管合规性,无法评估LLM是否能自主执行强制性安全约束。为了填补这一空白,论文提出了LogiSafetyGen框架,该框架将非结构化法规转换为线性时序逻辑(LTL)预言机,并采用逻辑引导的模糊测试来合成有效的、安全关键的轨迹。基于此框架,构建了LogiSafetyBench基准,包含240个经过人工验证的任务,要求LLM生成满足功能目标和潜在合规规则的Python程序。对13个最先进的LLM的评估表明,较大的模型虽然在功能正确性方面表现更好,但经常优先考虑任务完成而非安全性,从而导致不合规行为。
🔬 方法详解
问题定义:论文旨在解决LLM在工具调用过程中,对隐式监管规则的遵守问题。现有方法主要关注功能正确性,忽略了安全性约束,导致LLM可能生成违反法规的代码,在高风险场景下造成潜在危害。
核心思路:论文的核心思路是将非结构化的监管规则形式化为线性时序逻辑(LTL)公式,并利用这些公式作为预言机,指导模糊测试生成满足安全约束的测试用例。通过这种方式,可以系统地评估LLM在工具调用过程中是否能够遵守隐式安全规则。
技术框架:LogiSafetyGen框架包含以下几个主要模块:1) 法规形式化模块:将非结构化的自然语言法规转换为LTL公式。2) 轨迹生成模块:使用逻辑引导的模糊测试,生成满足LTL公式约束的轨迹。3) LLM评估模块:使用生成的轨迹作为输入,评估LLM生成的代码是否符合安全规则。LogiSafetyBench基准则基于此框架构建,包含大量人工验证的任务,用于全面评估LLM的合规性。
关键创新:论文的关键创新在于提出了一个将非结构化法规转换为可执行逻辑规则的框架,并利用这些规则指导LLM的评估和测试。这种方法能够有效地发现LLM在工具调用过程中存在的安全漏洞,并为LLM的改进提供指导。与现有方法相比,该方法能够更全面地评估LLM的安全性,并能够发现现有方法难以发现的隐式安全问题。
关键设计:在法规形式化模块中,需要设计有效的算法将自然语言法规转换为LTL公式。在轨迹生成模块中,需要设计高效的模糊测试算法,以生成满足LTL公式约束的轨迹。在LLM评估模块中,需要设计合适的指标来评估LLM的合规性。此外,LogiSafetyBench基准的设计也至关重要,需要包含足够多的、具有代表性的任务,以全面评估LLM的安全性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是大型LLM,在追求功能正确性的同时,也可能牺牲安全性,导致不合规行为。例如,某些模型在完成任务时,会忽略对用户隐私的保护,或者违反金融交易的合规性要求。实验还发现,通过使用LogiSafetyGen生成的测试用例,可以有效地发现LLM在工具调用过程中存在的安全漏洞,并为LLM的改进提供指导。
🎯 应用场景
该研究成果可应用于金融、医疗、交通等高风险领域,帮助开发者评估和改进LLM在工具调用过程中的安全性,确保LLM生成的代码符合相关法规和安全标准。通过LogiSafetyGen和LogiSafetyBench,可以有效降低LLM在高风险场景下造成潜在危害的风险,促进LLM技术的安全可靠应用。
📄 摘要(原文)
The integration of large language models (LLMs) into autonomous agents has enabled complex tool use, yet in high-stakes domains, these systems must strictly adhere to regulatory standards beyond simple functional correctness. However, existing benchmarks often overlook implicit regulatory compliance, thus failing to evaluate whether LLMs can autonomously enforce mandatory safety constraints. To fill this gap, we introduce LogiSafetyGen, a framework that converts unstructured regulations into Linear Temporal Logic oracles and employs logic-guided fuzzing to synthesize valid, safety-critical traces. Building on this framework, we construct LogiSafetyBench, a benchmark comprising 240 human-verified tasks that require LLMs to generate Python programs that satisfy both functional objectives and latent compliance rules. Evaluations of 13 state-of-the-art (SOTA) LLMs reveal that larger models, despite achieving better functional correctness, frequently prioritize task completion over safety, which results in non-compliant behavior.