Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models

📄 arXiv: 2509.01909v7 📥 PDF

作者: Ranjie Duan, Jiexi Liu, Xiaojun Jia, Shiji Zhao, Ruoxi Cheng, Fengxiang Wang, Cheng Wei, Yong Xie, Chang Liu, Defeng Li, Yinpeng Dong, Yichi Zhang, Yuefeng Chen, Chongwen Wang, Xingjun Ma, Xingxing Wei, Yang Liu, Hang Su, Jun Zhu, Xinfeng Li, Yitong Sun, Jie Zhang, Jinzhao Hu, Sha Xu, Wenchao Yang, Yitong Yang, Xingyao Zhang, Yingshui Tan, Jialing Tao, Hui Xue

分类: cs.AI, cs.CL, cs.CY, cs.HC, cs.SC

发布日期: 2025-09-02 (更新: 2025-10-14)

备注: Technical Report Code & Model weights available: https://github.com/Alibaba-AAIG/Oyster


💡 一句话要点

Oyster-I:超越拒绝,为负责任的语言模型构建建设性安全对齐

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型安全 建设性安全对齐 人机交互 心理健康 风险评估 博弈论 可解释人工智能

📋 核心要点

  1. 现有LLM安全机制侧重于防御恶意攻击,忽略了心理脆弱用户寻求帮助时的潜在风险,简单拒绝可能导致情况恶化。
  2. 论文提出建设性安全对齐(CSA)范式,通过博弈论预测用户反应、细粒度风险边界发现和可解释推理控制,引导用户获得安全帮助。
  3. Oyster-I(Oy1)在安全性和通用能力上达到SOTA,在建设性基准测试和越狱数据集上表现出强大的建设性参与和鲁棒性。

📝 摘要(中文)

大型语言模型(LLMs)通常部署安全机制以防止有害内容的生成。目前大多数方法狭隘地关注恶意行为者带来的风险,通常将风险视为对抗性事件并依赖于防御性拒绝。然而,在现实环境中,风险也来自非恶意用户在心理困扰(例如,自残意图)下寻求帮助。在这种情况下,模型的回应会强烈影响用户的后续行为。简单的拒绝可能导致他们重复、升级或转移到不安全的平台,从而产生更糟糕的结果。我们引入了建设性安全对齐(CSA),这是一种以人为中心的范例,可防止恶意滥用,同时积极引导脆弱用户获得安全和有用的结果。CSA在Oyster-I(Oy1)中实现,结合了用户反应的博弈论预测、细粒度的风险边界发现和可解释的推理控制,将安全性转变为建立信任的过程。Oy1在开放模型中实现了最先进的安全性,同时保持了高通用能力。在我们的建设性基准测试中,它表现出强大的建设性参与,接近GPT-5,并且在Strata-Sword越狱数据集上具有无与伦比的鲁棒性,接近GPT-o1的水平。通过从拒绝优先转向指导优先的安全,CSA重新定义了模型-用户关系,旨在实现不仅安全而且有意义地提供帮助的系统。我们发布Oy1、代码和基准测试,以支持负责任的、以用户为中心的人工智能。

🔬 方法详解

问题定义:现有大型语言模型(LLMs)的安全机制主要关注于防御恶意用户的攻击,例如通过对抗性提示来诱导模型生成有害内容。然而,这种以拒绝为核心的安全策略忽略了现实世界中一类重要的用户群体:那些处于心理困境中,寻求帮助但可能无意中触发安全机制的用户。对于这些用户,简单的拒绝可能会导致他们采取更极端的行为,甚至转向不安全的平台,从而加剧风险。因此,如何设计一种既能防御恶意攻击,又能为脆弱用户提供建设性帮助的安全机制,是一个亟待解决的问题。

核心思路:论文的核心思路是提出一种新的安全范式,称为“建设性安全对齐”(Constructive Safety Alignment, CSA)。CSA的核心思想是将安全机制从单纯的“拒绝”转变为“引导”,即在识别到潜在风险时,不是简单地拒绝用户的请求,而是通过理解用户的意图和心理状态,提供有针对性的、建设性的回应,引导用户走向安全和有益的结果。这种方法旨在建立一种信任关系,让用户感到被理解和支持,从而降低风险。

技术框架:Oyster-I (Oy1) 是 CSA 范式的具体实现。其技术框架包含以下几个主要模块:1) 用户反应预测模块:利用博弈论的思想,预测用户在接收到不同回应后的可能行为,从而选择最优的回应策略。2) 细粒度风险边界发现模块:通过对大量数据进行分析,精确地识别出不同类型风险的边界,避免过度拒绝或遗漏风险。3) 可解释推理控制模块:允许模型在生成回应时,考虑到安全因素,并提供可解释的推理过程,从而增强用户对模型信任。整体流程是,当用户输入请求后,模型首先进行风险评估,如果识别到潜在风险,则通过用户反应预测模块选择最优回应策略,并通过可解释推理控制模块生成建设性的回应。

关键创新:论文最重要的技术创新在于提出了“建设性安全对齐”这一新的安全范式。与传统的“拒绝优先”的安全策略不同,CSA 强调在识别到风险时,不是简单地拒绝用户,而是通过理解用户的意图和心理状态,提供有针对性的、建设性的回应,引导用户走向安全和有益的结果。这种方法更加人性化,也更符合现实世界的需求。

关键设计:在具体实现上,用户反应预测模块可能采用了强化学习或逆强化学习等技术,通过模拟用户行为来学习最优的回应策略。细粒度风险边界发现模块可能采用了主动学习或半监督学习等技术,通过人工标注和模型预测相结合的方式来提高风险识别的准确率。可解释推理控制模块可能采用了注意力机制或知识图谱等技术,来提供可解释的推理过程。

📊 实验亮点

Oyster-I 在安全性和通用能力上达到了最先进水平。在 Constructive Benchmark 上,其建设性参与度接近 GPT-5。在 Strata-Sword 越狱数据集上,其鲁棒性接近 GPT-o1 水平,表明其在防御恶意攻击和提供建设性帮助方面都表现出色。这些实验结果有力地证明了 CSA 范式的有效性。

🎯 应用场景

该研究成果具有广泛的应用前景,可应用于心理健康咨询、危机干预、教育辅导等领域。通过构建更安全、更值得信赖的语言模型,可以为处于困境中的用户提供及时有效的帮助,降低自残、自杀等风险。未来,该技术有望被集成到各种智能助手、聊天机器人等应用中,提升用户体验,构建更负责任的人工智能生态。

📄 摘要(原文)

Large language models (LLMs) typically deploy safety mechanisms to prevent harmful content generation. Most current approaches focus narrowly on risks posed by malicious actors, often framing risks as adversarial events and relying on defensive refusals. However, in real-world settings, risks also come from non-malicious users seeking help while under psychological distress (e.g., self-harm intentions). In such cases, the model's response can strongly influence the user's next actions. Simple refusals may lead them to repeat, escalate, or move to unsafe platforms, creating worse outcomes. We introduce Constructive Safety Alignment (CSA), a human-centric paradigm that protects against malicious misuse while actively guiding vulnerable users toward safe and helpful results. Implemented in Oyster-I (Oy1), CSA combines game-theoretic anticipation of user reactions, fine-grained risk boundary discovery, and interpretable reasoning control, turning safety into a trust-building process. Oy1 achieves state-of-the-art safety among open models while retaining high general capabilities. On our Constructive Benchmark, it shows strong constructive engagement, close to GPT-5, and unmatched robustness on the Strata-Sword jailbreak dataset, nearing GPT-o1 levels. By shifting from refusal-first to guidance-first safety, CSA redefines the model-user relationship, aiming for systems that are not just safe, but meaningfully helpful. We release Oy1, code, and the benchmark to support responsible, user-centered AI.