Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks

📄 arXiv: 2603.11914v1 📥 PDF

作者: Junjie Chu, Yiting Qu, Ye Leng, Michael Backes, Yun Shen, Savvas Zannettou, Yang Zhang

分类: cs.CR, cs.AI

发布日期: 2026-03-12

备注: 21 pages, 11 figures


💡 一句话要点

揭示大语言模型在无害任务中处理用户恶意内容时的行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 伦理风险 有害内容检测 安全性评估 内容安全 用户输入 无害任务

📋 核心要点

  1. 现有LLM主要关注任务层面的安全性,忽略了内容层面的伦理风险,即在无害任务中处理用户提供的有害内容。
  2. 本研究构建有害知识数据集和无害任务集,系统评估主流LLM在处理用户恶意内容时的行为。
  3. 实验结果表明,即使是最新的LLM也经常未能拒绝处理无害任务中的有害内容,存在潜在的伦理风险。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被训练以符合人类价值观,主要集中在任务层面,即拒绝执行直接有害的任务。然而,一个微妙但至关重要的内容层面的伦理问题常常被忽视:当执行看似良性的任务时,LLM是否会像有道德意识的人一样,拒绝处理用户提供的有害内容?本研究旨在理解这一内容层面的伦理问题,并系统地评估其对主流LLM的影响。我们首先构建了一个有害知识数据集(即不符合OpenAI的使用政策),作为用户提供的有害内容,包含十个有害类别中的1357个条目。然后,我们设计了九个无害任务(即符合OpenAI的使用政策),以模拟现实世界中的良性任务,根据所需用户提供内容的程度分为三类:广泛、中等和有限。利用有害知识数据集和无害任务集,我们评估了九个LLM在执行良性任务时暴露于用户提供的有害内容时的行为,并进一步研究了有害知识类别和任务之间的动态如何影响不同的LLM。我们的结果表明,当前的LLM,即使是最新的GPT-5.2和Gemini-3-Pro,通常未能坚持以人为本的伦理,继续处理无害任务中的有害内容。此外,“暴力/图像”类别中的外部知识和“翻译”任务更可能引发LLM的有害响应。我们还进行了广泛的消融研究,以调查影响这种新型误用漏洞的潜在因素。我们希望我们的研究能够激发利益相关者加强安全措施,以减轻这种被忽视的内容层面的伦理风险。

🔬 方法详解

问题定义:论文旨在解决LLM在执行看似无害的任务时,如何处理用户提供的有害内容的问题。现有方法主要关注任务层面的安全性,即避免直接执行有害任务,而忽略了内容层面的伦理风险,即LLM是否会在无害任务中拒绝处理有害内容。这种忽略可能导致LLM在不知情的情况下被用于传播或处理有害信息,从而带来潜在的伦理问题。

核心思路:论文的核心思路是通过构建一个包含有害知识的数据集和一个包含无害任务的数据集,来系统地评估LLM在处理用户提供的有害内容时的行为。通过将有害知识注入到无害任务中,观察LLM是否会继续执行任务,从而判断其是否能够识别并拒绝处理有害内容。这种方法模拟了现实世界中LLM可能遇到的情况,即用户可能会在无意或有意的情况下提供有害信息。

技术框架:论文的技术框架主要包括以下几个部分:1) 构建有害知识数据集:该数据集包含1357个条目,涵盖十个有害类别,例如仇恨言论、暴力等。2) 设计无害任务集:该任务集包含九个无害任务,根据所需用户提供内容的程度分为三类:广泛、中等和有限。3) 评估LLM的行为:将有害知识注入到无害任务中,然后输入到LLM中,观察LLM是否会继续执行任务。4) 分析实验结果:分析LLM在不同有害类别和不同任务下的行为,从而了解LLM在处理用户提供的有害内容时的能力。

关键创新:论文最重要的技术创新点在于其关注了内容层面的伦理风险,并提出了一种系统的方法来评估LLM在处理用户提供的有害内容时的行为。与现有方法相比,该方法更加关注LLM的内在伦理能力,即LLM是否能够识别并拒绝处理有害内容,而不仅仅是避免执行有害任务。

关键设计:论文的关键设计包括:1) 有害知识数据集的构建:该数据集需要包含各种类型的有害信息,并且需要保证其质量和多样性。2) 无害任务集的设计:该任务集需要包含各种类型的无害任务,并且需要保证其与现实世界的相关性。3) 评估指标的设计:该指标需要能够准确地反映LLM在处理用户提供的有害内容时的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是最新的GPT-5.2和Gemini-3-Pro等LLM,在执行无害任务时,也经常未能拒绝处理用户提供的有害内容。研究发现,“暴力/图像”类别中的外部知识和“翻译”任务更可能引发LLM的有害响应。消融研究进一步揭示了影响这种新型误用漏洞的潜在因素,为后续研究提供了重要参考。

🎯 应用场景

该研究的潜在应用领域包括:提高LLM的安全性,防止其被用于传播或处理有害信息;开发更加符合伦理规范的LLM;为LLM的开发者提供指导,帮助他们构建更加安全的LLM。该研究的实际价值在于揭示了LLM在处理用户提供的有害内容时存在的风险,并为解决这些风险提供了思路。未来影响包括:促进LLM的健康发展,使其能够更好地服务于人类。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly trained to align with human values, primarily focusing on task level, i.e., refusing to execute directly harmful tasks. However, a subtle yet crucial content-level ethical question is often overlooked: when performing a seemingly benign task, will LLMs -- like morally conscious human beings -- refuse to proceed when encountering harmful content in user-provided material? In this study, we aim to understand this content-level ethical question and systematically evaluate its implications for mainstream LLMs. We first construct a harmful knowledge dataset (i.e., non-compliant with OpenAI's usage policy) to serve as the user-supplied harmful content, with 1,357 entries across ten harmful categories. We then design nine harmless tasks (i.e., compliant with OpenAI's usage policy) to simulate the real-world benign tasks, grouped into three categories according to the extent of user-supplied content required: extensive, moderate, and limited. Leveraging the harmful knowledge dataset and the set of harmless tasks, we evaluate how nine LLMs behave when exposed to user-supplied harmful content during the execution of benign tasks, and further examine how the dynamics between harmful knowledge categories and tasks affect different LLMs. Our results show that current LLMs, even the latest GPT-5.2 and Gemini-3-Pro, often fail to uphold human-aligned ethics by continuing to process harmful content in harmless tasks. Furthermore, external knowledge from the Violence/Graphic'' category and theTranslation'' task is more likely to elicit harmful responses from LLMs. We also conduct extensive ablation studies to investigate potential factors affecting this novel misuse vulnerability. We hope that our study could inspire enhanced safety measures among stakeholders to mitigate this overlooked content-level ethical risk.