Safe in the Future, Dangerous in the Past: Dissecting Temporal and Linguistic Vulnerabilities in LLMs

📄 arXiv: 2512.24556v2 📥 PDF

作者: Muhammad Abdullahi Said, Muhammad Sammani Sani

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-12-31 (更新: 2026-01-04)


💡 一句话要点

揭示大语言模型在语言和时间维度上的安全漏洞,提出不变对齐

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全对齐 对抗性数据集 多语言 时间推理 不变对齐 豪萨语

📋 核心要点

  1. 现有大型语言模型在安全对齐方面存在漏洞,尤其是在非英语语境和时间推理上。
  2. 论文提出HausaSafety对抗数据集,并采用析因设计,系统性地评估了模型在不同语言和时间框架下的安全性。
  3. 实验揭示了模型在豪萨语和过去时态下的安全漏洞,强调了安全对齐的上下文依赖性,并提出不变对齐的必要性。

📝 摘要(中文)

随着大型语言模型(LLMs)集成到关键的全球基础设施中,假设安全对齐能够从英语零样本迁移到其他语言,这仍然是一个危险的盲点。本研究使用HausaSafety(一个基于西非威胁场景(如Yahoo-Yahoo欺诈、Dane枪支制造)的新型对抗性数据集),对三个最先进的模型(GPT-5.1、Gemini 3 Pro和Claude 4.5 Opus)进行了系统的审计。通过一个2 x 4的析因设计,进行了1440次评估,测试了语言(英语vs.豪萨语)和时间框架之间的非线性交互作用。我们的结果挑战了多语言安全差距的说法。我们没有发现低资源环境下的简单退化,而是识别出一种复杂的干扰机制,其中安全性由变量的交集决定。尽管这些模型表现出一种反向语言漏洞,即Claude 4.5 Opus在豪萨语中的安全性(45.0%)显著高于英语(36.7%),这是由于不确定性驱动的拒绝,但它们在时间推理方面遭受了灾难性的失败。我们报告了一种深刻的时间不对称性,其中过去时态的框架绕过了防御(15.6%安全),而将来时态的场景触发了过度保守的拒绝(57.2%安全)。这种波动性的幅度通过最安全和最脆弱配置之间9.2倍的差异来说明,证明安全性不是一个固定的属性,而是一个上下文相关的状态。我们得出结论,目前的模型依赖于肤浅的启发式方法,而不是强大的语义理解,从而产生了安全口袋,使全球南方用户面临本地化的危害。我们提出不变对齐作为一种必要的范式转变,以确保跨语言和时间转变的安全稳定性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在多语言环境和不同时间框架下的安全漏洞问题。现有方法假设LLMs的安全对齐可以从英语零样本迁移到其他语言,但这种假设存在危险的盲点。现有的安全评估方法往往忽略了语言和时间因素的交互作用,导致对LLMs安全性的评估不全面。

核心思路:论文的核心思路是通过构建一个新型的对抗性数据集HausaSafety,并采用析因实验设计,系统性地评估LLMs在不同语言(英语vs.豪萨语)和时间框架(过去时、现在时、将来时)下的安全性。通过分析实验结果,揭示LLMs在语言和时间维度上的安全漏洞,并提出不变对齐的概念,以提高LLMs在不同语境下的安全稳定性。

技术框架:论文的技术框架主要包括以下几个部分:1) 构建HausaSafety对抗性数据集,该数据集基于西非的威胁场景,如Yahoo-Yahoo欺诈、Dane枪支制造等;2) 选择三个最先进的LLMs(GPT-5.1、Gemini 3 Pro和Claude 4.5 Opus)作为评估对象;3) 采用2 x 4的析因设计,对LLMs进行1440次评估,测试语言和时间框架之间的非线性交互作用;4) 分析实验结果,识别LLMs在语言和时间维度上的安全漏洞,并提出不变对齐的概念。

关键创新:论文最重要的技术创新点在于:1) 提出了HausaSafety对抗性数据集,该数据集针对西非的威胁场景,更贴近实际应用;2) 揭示了LLMs在语言和时间维度上的安全漏洞,挑战了多语言安全差距的说法;3) 提出了不变对齐的概念,旨在提高LLMs在不同语境下的安全稳定性。

关键设计:论文的关键设计包括:1) HausaSafety数据集的构建,需要考虑西非的文化背景和威胁场景,确保数据集的有效性和代表性;2) 析因实验设计,需要合理选择语言和时间框架作为自变量,并控制其他变量,以确保实验结果的可靠性;3) 安全性评估指标的选择,需要综合考虑LLMs的拒绝率、生成内容的安全性等因素,以全面评估LLMs的安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Claude 4.5 Opus在豪萨语中的安全性(45.0%)显著高于英语(36.7%),但所有模型在过去时态下的安全性显著降低(15.6%安全),而在将来时态下则表现出过度保守的拒绝(57.2%安全)。最安全和最脆弱配置之间存在9.2倍的安全性差异,突显了模型安全性的上下文依赖性。

🎯 应用场景

该研究成果可应用于提升大型语言模型在全球范围内的安全性,尤其是在低资源语言和文化背景下的应用。通过不变对齐,可以减少模型在不同语言和时间框架下的安全漏洞,降低模型被恶意利用的风险,从而更好地服务于全球用户。

📄 摘要(原文)

As Large Language Models (LLMs) integrate into critical global infrastructure, the assumption that safety alignment transfers zero-shot from English to other languages remains a dangerous blind spot. This study presents a systematic audit of three state of the art models (GPT-5.1, Gemini 3 Pro, and Claude 4.5 Opus) using HausaSafety, a novel adversarial dataset grounded in West African threat scenarios (e.g., Yahoo-Yahoo fraud, Dane gun manufacturing). Employing a 2 x 4 factorial design across 1,440 evaluations, we tested the non-linear interaction between language (English vs. Hausa) and temporal framing. Our results challenge the narrative of the multilingual safety gap. Instead of a simple degradation in low-resource settings, we identified a complex interference mechanism in which safety is determined by the intersection of variables. Although the models exhibited a reverse linguistic vulnerability with Claude 4.5 Opus proving significantly safer in Hausa (45.0%) than in English (36.7%) due to uncertainty-driven refusal, they suffered catastrophic failures in temporal reasoning. We report a profound Temporal Asymmetry, where past-tense framing bypassed defenses (15.6% safe) while future-tense scenarios triggered hyper-conservative refusals (57.2% safe). The magnitude of this volatility is illustrated by a 9.2x disparity between the safest and most vulnerable configurations, proving that safety is not a fixed property but a context-dependent state. We conclude that current models rely on superficial heuristics rather than robust semantic understanding, creating Safety Pockets that leave Global South users exposed to localized harms. We propose Invariant Alignment as a necessary paradigm shift to ensure safety stability across linguistic and temporal shifts.