SNEAK: Evaluating Strategic Communication and Information Leakage in Large Language Models
作者: Adar Avsian, Larry Heck
分类: cs.CL
发布日期: 2026-03-31
💡 一句话要点
SNEAK:评估大型语言模型中的策略性沟通与信息泄露
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 策略性沟通 信息泄露 非对称信息 基准测试
📋 核心要点
- 现有LLM基准缺乏对非对称信息下策略性沟通能力的直接评估,无法有效衡量模型在信息传递和保密之间的平衡能力。
- SNEAK基准通过模拟盟友和对手两种角色,评估模型在已知秘密信息的情况下,生成既能有效沟通又不泄露秘密的消息的能力。
- 实验结果表明,当前LLM在策略性沟通方面仍面临挑战,与人类的表现存在显著差距,表明该领域仍有很大的提升空间。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地部署在多智能体环境中,在这些环境中,沟通必须在信息性和保密性之间取得平衡。在这种环境中,智能体可能需要向合作者传递信息,同时防止对手推断出敏感细节。然而,现有的LLM基准主要评估推理、事实知识或指令遵循等能力,并没有直接衡量非对称信息下的策略性沟通。我们引入了SNEAK(Secret-aware Natural language Evaluation for Adversarial Knowledge),这是一个用于评估语言模型中选择性信息共享的基准。在SNEAK中,模型被赋予一个语义类别、一个候选词集和一个秘密词,并且必须生成一条消息,表明它知道该秘密,但又不能过于明显地泄露它。我们使用两个具有不同信息状态的模拟智能体来评估生成的消息:一个盟友,他知道秘密并且必须识别预期的消息;以及一个变色龙,他不知道秘密并且试图从消息中推断出它。这产生了两个互补的指标:效用,衡量消息与合作者沟通的程度;以及泄露,衡量它向对手泄露了多少信息。使用这个框架,我们分析了现代语言模型中信息性和保密性之间的权衡,并表明在非对称信息下的策略性沟通对于当前系统来说仍然是一项具有挑战性的能力。值得注意的是,人类参与者的表现远远优于所有评估的模型,得分高达四倍。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在多智能体环境中进行策略性沟通时,如何在传递必要信息的同时,防止敏感信息泄露给潜在的攻击者的问题。现有方法主要关注模型的推理、知识储备和指令遵循能力,缺乏对模型在非对称信息场景下策略性沟通能力的评估。因此,如何设计一个能够有效评估模型在信息传递和保密之间权衡能力的基准测试成为了一个关键挑战。
核心思路:论文的核心思路是构建一个模拟的对抗环境,其中一个语言模型需要生成一条消息,该消息既能帮助知道秘密的盟友理解,又能防止不知道秘密的对手推断出秘密。通过衡量消息对盟友的效用和对对手的信息泄露程度,来评估模型的策略性沟通能力。这种设计模拟了现实世界中需要进行选择性信息共享的场景。
技术框架:SNEAK基准测试框架包含以下几个主要组成部分:1) 任务定义:给定一个语义类别、一个候选词集和一个秘密词,模型需要生成一条消息。2) 盟友智能体:知道秘密词,并尝试根据消息识别出秘密词。3) 变色龙智能体:不知道秘密词,并尝试根据消息推断出秘密词。4) 评估指标:效用(盟友成功识别秘密词的概率)和泄露(变色龙成功推断出秘密词的概率)。整体流程是,模型生成消息后,分别输入给盟友和变色龙智能体,然后根据它们的表现计算效用和泄露指标。
关键创新:SNEAK基准测试的关键创新在于它提供了一种量化评估语言模型在非对称信息下策略性沟通能力的方法。与以往的基准测试不同,SNEAK不仅关注模型的信息传递能力,还关注模型的信息保密能力,从而更全面地评估了模型在复杂环境下的表现。此外,通过模拟盟友和变色龙两种角色,SNEAK能够更真实地反映现实世界中的信息不对称情况。
关键设计:SNEAK基准测试的关键设计包括:1) 语义类别和候选词集的选择:需要精心设计,以确保任务的难度适中,并且能够有效地评估模型的策略性沟通能力。2) 盟友和变色龙智能体的设计:可以使用不同的模型或算法来实现,以模拟不同的认知能力和推理能力。3) 效用和泄露指标的计算方法:需要选择合适的指标来准确衡量消息的信息传递和保密程度。例如,可以使用分类准确率来衡量盟友和变色龙智能体的表现,并使用信息论中的互信息来衡量消息的信息泄露程度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当前的大型语言模型在SNEAK基准测试中的表现远低于人类水平,在效用和泄露之间难以取得平衡。人类参与者的得分是最佳模型的四倍,表明现有模型在策略性沟通方面仍有很大的提升空间。该研究揭示了当前LLM在处理复杂信息环境下的局限性。
🎯 应用场景
该研究成果可应用于需要进行策略性沟通的场景,例如安全通信、谈判协商、信息隐藏等。通过SNEAK基准,可以更好地评估和提升语言模型在这些场景下的表现,从而提高系统的安全性和可靠性。未来,该研究还可以扩展到更复杂的多智能体环境,例如智能客服、自动驾驶等。
📄 摘要(原文)
Large language models (LLMs) are increasingly deployed in multi-agent settings where communication must balance informativeness and secrecy. In such settings, an agent may need to signal information to collaborators while preventing an adversary from inferring sensitive details. However, existing LLM benchmarks primarily evaluate capabilities such as reasoning, factual knowledge, or instruction following, and do not directly measure strategic communication under asymmetric information. We introduce SNEAK (Secret-aware Natural language Evaluation for Adversarial Knowledge), a benchmark for evaluating selective information sharing in language models. In SNEAK, a model is given a semantic category, a candidate set of words, and a secret word, and must generate a message that indicates knowledge of the secret without revealing it too clearly. We evaluate generated messages using two simulated agents with different information states: an ally, who knows the secret and must identify the intended message, and a chameleon, who does not know the secret and attempts to infer it from the message. This yields two complementary metrics: utility, measuring how well the message communicates to collaborators, and leakage, measuring how much information it reveals to an adversary. Using this framework, we analyze the trade-off between informativeness and secrecy in modern language models and show that strategic communication under asymmetric information remains a challenging capability for current systems. Notably, human participants outperform all evaluated models by a large margin, achieving up to four times higher scores.