CORVUS: Red-Teaming Hallucination Detectors via Internal Signal Camouflage in Large Language Models

作者: Nay Myat Min, Long H. Pham, Hongyu Zhang, Jun Sun

分类: cs.CR, cs.AI

发布日期: 2026-01-19

备注: 13 pages, 1 figure

💡 一句话要点

CORVUS：通过内部信号伪装对抗大语言模型幻觉检测器

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉检测 对抗攻击 红队测试 内部信号伪装

📋 核心要点

现有单次幻觉检测器依赖模型内部信号，但假设幻觉会留下可分离的信号痕迹，这为对抗攻击提供了可能。
CORVUS通过微调LoRA适配器，学习伪装模型内部的遥测信号，使幻觉行为难以被检测器识别。
实验表明，CORVUS能够有效降低多种幻觉检测器的性能，包括无训练和基于探针的检测器，且具有跨模型迁移能力。

📝 摘要（中文）

单次通过的幻觉检测器依赖于大型语言模型的内部遥测数据（例如，不确定性、隐藏状态几何结构和注意力），隐含地假设幻觉在这些信号中留下可分离的痕迹。我们研究了一种白盒、模型侧的对抗方法，该方法在保持检测器固定的同时，在模型上微调轻量级的LoRA适配器，并引入CORVUS，这是一种有效的红队程序，学习在教师强制下伪装检测器可见的遥测数据，包括嵌入空间FGSM注意力压力测试。CORVUS在1,000个分布外的Alpaca指令上进行训练（<0.5%的可训练参数），可以迁移到Llama-2、Vicuna、Llama-3和Qwen2.5上的FAVA-Annotation，并降低了无训练检测器（例如，LLM-Check）和基于探针的检测器（例如，SEP，ICR-probe）的性能，从而推动了包含外部 grounding 或跨模型证据的对抗感知审计。

🔬 方法详解

问题定义：现有幻觉检测器依赖于大语言模型内部信号（如不确定性、隐藏状态、注意力等）来识别幻觉。这些方法假设幻觉会在这些信号中留下独特的、可被检测到的痕迹。然而，这种假设可能存在漏洞，攻击者可以通过操纵这些内部信号来隐藏幻觉行为，从而绕过检测器。现有方法缺乏针对这种对抗性攻击的有效防御机制。

核心思路：CORVUS的核心思路是通过微调大语言模型，使其在生成幻觉内容的同时，能够伪装其内部信号，使其看起来与正常生成的内容相似，从而欺骗幻觉检测器。这种伪装是通过学习一个轻量级的LoRA适配器来实现的，该适配器能够修改模型的内部表示，使其在生成幻觉时不会留下明显的“幻觉痕迹”。

技术框架：CORVUS采用白盒对抗攻击框架，攻击者可以访问目标大语言模型的内部结构和参数。该框架包含以下主要步骤：1) 选择目标大语言模型和幻觉检测器；2) 使用分布外的指令数据集训练LoRA适配器，目标是最小化检测器识别幻觉的能力；3) 使用训练好的适配器修改大语言模型的行为，使其在生成幻觉内容的同时，能够伪装其内部信号。框架中使用了嵌入空间FGSM（Fast Gradient Sign Method）注意力压力测试，以进一步增强伪装效果。

关键创新：CORVUS的关键创新在于其能够学习到一种有效的内部信号伪装策略，使得大语言模型在生成幻觉内容时，能够避免被现有的幻觉检测器识别。这种伪装策略是通过微调LoRA适配器来实现的，该适配器能够以较小的计算成本修改模型的内部表示，从而实现有效的对抗攻击。此外，CORVUS还引入了嵌入空间FGSM注意力压力测试，以进一步增强伪装效果。

关键设计：CORVUS使用LoRA（Low-Rank Adaptation）作为微调方法，仅需训练少量参数（<0.5%），降低了计算成本。损失函数的设计目标是最小化幻觉检测器的输出，即使得检测器难以区分真实内容和幻觉内容。嵌入空间FGSM注意力压力测试通过在注意力权重上添加扰动，进一步增强了模型的鲁棒性和伪装能力。实验中使用了1000个分布外的Alpaca指令进行训练，并评估了在Llama-2、Vicuna、Llama-3和Qwen2.5等多个模型上的迁移能力。

🖼️ 关键图片

📊 实验亮点

CORVUS在多个大语言模型（Llama-2, Vicuna, Llama-3, Qwen2.5）上进行了评估，结果表明，即使只在1000个Alpaca指令上进行训练，CORVUS也能有效降低多种幻觉检测器的性能，包括无训练检测器（如LLM-Check）和基于探针的检测器（如SEP, ICR-probe）。这表明CORVUS具有良好的泛化能力和迁移性，能够有效地对抗现有的幻觉检测方法。

🎯 应用场景

CORVUS的研究成果可以应用于评估和改进大语言模型的安全性。通过使用CORVUS进行红队测试，可以发现现有幻觉检测器的漏洞，并促进开发更鲁棒的检测方法。此外，该研究也为开发更安全的语言模型提供了新的思路，例如，可以通过对抗训练来提高模型抵抗对抗攻击的能力。该研究对于构建可信赖的人工智能系统具有重要意义。

📄 摘要（原文）

Single-pass hallucination detectors rely on internal telemetry (e.g., uncertainty, hidden-state geometry, and attention) of large language models, implicitly assuming hallucinations leave separable traces in these signals. We study a white-box, model-side adversary that fine-tunes lightweight LoRA adapters on the model while keeping the detector fixed, and introduce CORVUS, an efficient red-teaming procedure that learns to camouflage detector-visible telemetry under teacher forcing, including an embedding-space FGSM attention stress test. Trained on 1,000 out-of-distribution Alpaca instructions (<0.5% trainable parameters), CORVUS transfers to FAVA-Annotation across Llama-2, Vicuna, Llama-3, and Qwen2.5, and degrades both training-free detectors (e.g., LLM-Check) and probe-based detectors (e.g., SEP, ICR-probe), motivating adversary-aware auditing that incorporates external grounding or cross-model evidence.

CORVUS: Red-Teaming Hallucination Detectors via Internal Signal Camouflage in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理