HarDBench: A Benchmark for Draft-Based Co-Authoring Jailbreak Attacks for Safe Human-LLM Collaborative Writing
作者: Euntae Kim, Soomin Han, Buru Chang
分类: cs.CL
发布日期: 2026-04-21
🔗 代码/项目: GITHUB
💡 一句话要点
HarDBench:提出基于草稿的协同写作越狱攻击评测基准,保障人机协作安全
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 协同写作 大型语言模型 越狱攻击 安全对齐 偏好优化
📋 核心要点
- 现有LLM在协同写作场景下,容易受到恶意用户通过草稿注入有害内容进行越狱攻击,存在严重安全隐患。
- 论文提出一种安全-效用平衡对齐方法,基于偏好优化训练模型,使其拒绝有害补全,同时保持对良性草稿的帮助性。
- 实验表明,现有LLM在协同写作中非常脆弱,而论文提出的对齐方法能显著减少有害输出,且不影响协同写作能力。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地被用作协同写作中的合作者,用户从粗略的草稿开始,依靠LLMs来完成、修改和完善他们的内容。然而,这种能力带来了一个严重的安全风险:恶意用户可以通过越狱模型——用危险内容填充不完整的草稿——来迫使它们生成有害的输出。本文识别了当前LLMs在这种基于草稿的协同写作越狱攻击中的脆弱性,并引入了HarDBench,这是一个系统性的基准,旨在评估LLMs对抗这种新兴威胁的鲁棒性。HarDBench涵盖了一系列高风险领域——包括爆炸物、毒品、武器和网络攻击——并具有具有现实结构和领域特定线索的提示,以评估模型对有害补全的敏感性。为了缓解这种风险,我们引入了一种基于偏好优化的安全-效用平衡对齐方法,训练模型拒绝有害补全,同时在良性草稿上保持有帮助。实验结果表明,现有的LLMs在协同写作环境中非常脆弱,并且我们的对齐方法显着减少了有害输出,而不会降低协同写作能力的性能。这为评估和对齐人-LLM协同写作环境中的LLMs提供了一种新的范例。我们的新基准和数据集可在我们的项目页面上找到:https://github.com/untae0122/HarDBench
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在协同写作场景下,容易受到基于草稿的越狱攻击的问题。恶意用户可以通过构造包含有害线索的草稿,诱导LLMs生成危险或不当内容。现有方法缺乏对此类攻击的有效防御,并且难以在安全性和实用性之间取得平衡。
核心思路:论文的核心思路是提出一种安全-效用平衡的对齐方法,通过偏好优化,训练LLMs识别并拒绝有害草稿的补全请求,同时保持对良性草稿的帮助性。这种方法旨在提高LLMs在协同写作中的安全性,防止其被恶意利用。
技术框架:整体框架包含以下几个主要阶段:1) 构建包含有害和良性草稿的HarDBench基准数据集;2) 使用偏好优化算法,训练LLM区分有害和良性草稿,并学习拒绝有害补全;3) 评估对齐后的LLM在HarDBench上的安全性和实用性,以及其协同写作能力。
关键创新:论文的关键创新在于提出了基于草稿的协同写作越狱攻击场景,并设计了相应的评测基准HarDBench。此外,论文提出的安全-效用平衡对齐方法,能够在提高LLMs安全性的同时,保持其在协同写作中的实用性。
关键设计:论文使用偏好优化算法,例如Direct Preference Optimization (DPO) 或 Reinforcement Learning from Human Feedback (RLHF),来训练LLM。具体的损失函数设计需要平衡安全性和实用性,例如,可以使用一个奖励模型来评估LLM生成的文本的安全性,并将其作为优化目标的一部分。此外,数据集的构建也至关重要,需要包含各种类型的有害和良性草稿,以提高LLM的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有的LLMs在HarDBench基准上表现出较高的脆弱性,容易受到基于草稿的越狱攻击。而论文提出的安全-效用平衡对齐方法,能够显著降低LLMs生成有害输出的概率,同时保持其在协同写作中的性能。具体的性能提升数据未知,但论文强调该方法在安全性和实用性之间取得了较好的平衡。
🎯 应用场景
该研究成果可应用于各种人机协同写作场景,例如文档撰写、代码生成、创意写作等。通过提高LLMs在协同写作中的安全性,可以防止其被恶意利用,生成有害或不当内容,从而保障用户安全和维护社会稳定。未来,该研究还可以扩展到其他类型的人机协作任务中,例如智能客服、虚拟助手等。
📄 摘要(原文)
Large language models (LLMs) are increasingly used as co-authors in collaborative writing, where users begin with rough drafts and rely on LLMs to complete, revise, and refine their content. However, this capability poses a serious safety risk: malicious users could jailbreak the models-filling incomplete drafts with dangerous content-to force them into generating harmful outputs. In this paper, we identify the vulnerability of current LLMs to such draft-based co-authoring jailbreak attacks and introduce HarDBench, a systematic benchmark designed to evaluate the robustness of LLMs against this emerging threat. HarDBench spans a range of high-risk domains-including Explosives, Drugs, Weapons, and Cyberattacks-and features prompts with realistic structure and domain-specific cues to assess the model susceptibility to harmful completions. To mitigate this risk, we introduce a safety-utility balanced alignment approach based on preference optimization, training models to refuse harmful completions while remaining helpful on benign drafts. Experimental results show that existing LLMs are highly vulnerable in co-authoring contexts and our alignment method significantly reduces harmful outputs without degrading performance on co-authoring capabilities. This presents a new paradigm for evaluating and aligning LLMs in human-LLM collaborative writing settings. Our new benchmark and dataset are available on our project page at https://github.com/untae0122/HarDBench