Crisis-Bench: Benchmarking Strategic Ambiguity and Reputation Management in Large Language Models

📄 arXiv: 2601.05570v1 📥 PDF

作者: Cooper Lin, Maohao Ran, Yanting Zhang, Zhenglin Wan, Hongwei Fan, Yibo Xu, Yike Guo, Wei Xue, Jun Song

分类: cs.AI, cs.MA

发布日期: 2026-01-09


💡 一句话要点

Crisis-Bench:评估大语言模型在危机公关中的战略模糊与声誉管理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 危机公关 声誉管理 战略模糊 信息不对称

📋 核心要点

  1. 现有大语言模型安全对齐方法在危机公关等专业领域存在“透明度税”问题,无法有效处理战略模糊和信息不对称。
  2. 论文提出Crisis-Bench基准,通过多智能体POMDP模拟企业危机,评估LLM在声誉管理中的战略模糊和信息控制能力。
  3. 实验结果表明,部分模型具备在危机中进行战略性信息保留以稳定股价的能力,验证了Crisis-Bench的有效性。

📝 摘要(中文)

标准的安全对齐旨在优化大语言模型(LLMs),使其在通用场景下更具帮助性和诚实性,从而有效地灌输了一种僵化的“童子军”道德观。虽然这种方法对于通用助手来说是稳健的,但这种一刀切的伦理框架对需要战略模糊和信息保留的专业领域(如公共关系、谈判和危机管理)施加了“透明度税”。为了衡量通用安全性和专业实用性之间的差距,我们引入了Crisis-Bench,这是一个多智能体部分可观察马尔可夫决策过程(POMDP),用于评估LLM在高风险企业危机中的表现。Crisis-Bench涵盖8个行业的80个不同的故事情节,要求基于LLM的公共关系(PR)代理在动态的7天企业危机模拟中导航,同时管理严格分离的私人和公共叙事状态,以执行严格的信息不对称。与依赖静态真值的传统基准不同,我们引入了Adjudicator-Market Loop:一种新颖的评估指标,其中公众情绪被裁决并转化为模拟股价,从而创建了现实的经济激励结构。我们的结果揭示了一个关键的二分法:虽然一些模型屈服于伦理问题,但另一些模型表现出马基雅维利式的、合法的战略性信息保留能力,以稳定模拟股价。Crisis-Bench提供了第一个用于评估“声誉管理”能力的定量框架,主张从僵化的道德绝对主义转向情境感知的专业对齐。

🔬 方法详解

问题定义:论文旨在解决大语言模型在危机公关等需要战略模糊和信息控制的专业领域表现不佳的问题。现有的大语言模型安全对齐方法过于强调透明和诚实,导致模型在需要信息不对称的场景下无法有效应对,产生了“透明度税”。

核心思路:论文的核心思路是通过构建一个模拟真实企业危机的环境,评估大语言模型在信息不对称情况下的声誉管理能力。通过模拟股价波动和公众情绪变化,为模型提供经济激励,鼓励其学习战略性信息控制。

技术框架:Crisis-Bench是一个多智能体部分可观察马尔可夫决策过程(POMDP)。该框架包含以下主要模块:1)危机事件生成器:生成8个行业共80个不同的危机故事情节。2)公共关系(PR)代理:基于LLM,负责在危机中发布声明和回应。3)公众情绪评估器:根据PR代理的声明和危机事件,评估公众情绪。4)股价模拟器:根据公众情绪,模拟股价波动。5)Adjudicator-Market Loop:将公众情绪转化为模拟股价,为PR代理提供经济激励。

关键创新:论文的关键创新在于Adjudicator-Market Loop评估指标。该指标将公众情绪与模拟股价联系起来,创建了一个更真实的经济激励结构,使模型能够学习在危机中进行战略性信息控制,以稳定股价。此外,Crisis-Bench本身作为一个基准,为评估LLM在声誉管理方面的能力提供了一个标准化的平台。

关键设计:Crisis-Bench的关键设计包括:1)严格分离的私人和公共叙事状态,以强制执行信息不对称。2)基于LLM的PR代理,使其能够生成自然语言声明和回应。3)Adjudicator-Market Loop中的参数设置,例如公众情绪对股价的影响程度,需要仔细调整以确保模拟的真实性。

📊 实验亮点

实验结果表明,部分模型在Crisis-Bench中表现出马基雅维利式的战略性信息保留能力,能够有效稳定模拟股价。这表明,通过适当的训练和评估,大语言模型可以学习在危机中进行有效的声誉管理。该研究为评估和提升大语言模型在专业领域的应用提供了新的思路。

🎯 应用场景

该研究成果可应用于评估和提升大语言模型在危机公关、谈判、法律等需要战略模糊和信息控制的专业领域的表现。通过Crisis-Bench,可以训练出更适应特定行业需求的专业AI助手,提高其在复杂环境下的决策能力和风险管理能力。未来,该研究还可以扩展到其他需要信息不对称的场景,例如情报分析和网络安全。

📄 摘要(原文)

Standard safety alignment optimizes Large Language Models (LLMs) for universal helpfulness and honesty, effectively instilling a rigid "Boy Scout" morality. While robust for general-purpose assistants, this one-size-fits-all ethical framework imposes a "transparency tax" on professional domains requiring strategic ambiguity and information withholding, such as public relations, negotiation, and crisis management. To measure this gap between general safety and professional utility, we introduce Crisis-Bench, a multi-agent Partially Observable Markov Decision Process (POMDP) that evaluates LLMs in high-stakes corporate crises. Spanning 80 diverse storylines across 8 industries, Crisis-Bench tasks an LLM-based Public Relations (PR) Agent with navigating a dynamic 7-day corporate crisis simulation while managing strictly separated Private and Public narrative states to enforce rigorous information asymmetry. Unlike traditional benchmarks that rely on static ground truths, we introduce the Adjudicator-Market Loop: a novel evaluation metric where public sentiment is adjudicated and translated into a simulated stock price, creating a realistic economic incentive structure. Our results expose a critical dichotomy: while some models capitulate to ethical concerns, others demonstrate the capacity for Machiavellian, legitimate strategic withholding in order to stabilize the simulated stock price. Crisis-Bench provides the first quantitative framework for assessing "Reputation Management" capabilities, arguing for a shift from rigid moral absolutism to context-aware professional alignment.