LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions

📄 arXiv: 2406.08824v2 📥 PDF

作者: Andrew Hundt, Rumaisa Azeem, Masoumeh Mansouri, Martim Brandão

分类: cs.RO, cs.AI, cs.CL, cs.CY

发布日期: 2024-06-13 (更新: 2025-11-15)

备注: Published in International Journal of Social Robotics (2025). 49 pages (65 with references and appendix), 27 Figures, 8 Tables. Andrew Hundt and Rumaisa Azeem are equal contribution co-first authors. The positions of the two co-first authors were swapped from arxiv version 1 with the written consent of all four authors. The Version of Record is available via DOI: 10.1007/s12369-025-01301-x

DOI: 10.1007/s12369-025-01301-x

🔗 代码/项目: GITHUB


💡 一句话要点

揭示LLM驱动机器人中存在的歧视、暴力和非法行为风险

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人机交互 机器人伦理 歧视 安全 风险评估 公平性 自然语言处理

📋 核心要点

  1. 现有方法在机器人任务中依赖LLM,但存在潜在的歧视和不安全行为风险,缺乏充分的评估。
  2. 该研究通过评估多个LLM在歧视和安全标准上的表现,揭示了其在HRI任务中的潜在风险。
  3. 实验结果表明,LLM在处理涉及不同身份特征人群时,存在歧视性输出和不安全行为,需要进行风险评估。

📝 摘要(中文)

人机交互(HRI)和机器学习(ML)领域的研究人员认为,大型语言模型(LLM)是机器人技术的一个有前途的资源,可用于自然语言交互、家庭和工作场所任务、近似“常识推理”以及人类建模。然而,最近的研究引发了人们对LLM在现实世界的机器人实验和应用中产生歧视性结果和不安全行为的担忧。为了评估这些担忧在HRI背景下是否合理,我们评估了几个高评分的LLM在歧视和安全标准上的表现。我们的评估表明,LLM目前对具有不同受保护身份特征的人群是不安全的,包括但不限于种族、性别、残疾状况、国籍、宗教及其交叉点。具体而言,我们表明LLM会产生直接的歧视性结果——例如,“吉普赛人”和“哑巴”被贴上不值得信任的标签,但“欧洲人”或“健全人”则不会。我们发现HRI任务中存在各种此类直接歧视的例子,例如面部表情、空间关系学、安全、救援和任务分配。此外,我们在具有不受约束的自然语言(开放词汇)输入的设置中测试模型,发现它们无法安全地行动,产生接受危险、暴力或非法指令的响应——例如,导致事故的错误陈述、拿走人们的行动辅助工具和性侵犯。我们的结果强调迫切需要进行系统的、常规的和全面的风险评估和保证,以改善结果并确保LLM仅在安全、有效和公正的情况下才在机器人上运行。我们提供了代码以在https://github.com/rumaisa-azeem/llm-robots-discrimination-safety 上重现我们的实验。

🔬 方法详解

问题定义:论文旨在解决LLM驱动的机器人在人机交互中可能产生的歧视、暴力和非法行为问题。现有方法未能充分评估和解决LLM在处理涉及不同身份特征人群时的潜在风险,导致可能出现不公正和不安全的行为。

核心思路:论文的核心思路是通过系统性的评估,揭示LLM在HRI任务中存在的歧视和安全问题。通过设计特定的测试用例,模拟真实场景,评估LLM在处理不同人群时的输出,从而发现其潜在的偏见和不安全行为。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 选择多个具有代表性的LLM进行评估;2) 设计一系列HRI任务,涵盖面部表情识别、空间关系学、安全、救援和任务分配等;3) 针对每个任务,设计包含不同身份特征人群的测试用例;4) 分析LLM的输出,评估其是否存在歧视和不安全行为;5) 在开放词汇输入设置下测试LLM,评估其对危险、暴力或非法指令的响应。

关键创新:该研究最重要的技术创新点在于,它首次系统性地评估了LLM在HRI任务中存在的歧视和安全问题。与以往的研究不同,该研究不仅关注LLM的性能,更关注其在处理不同人群时的公平性和安全性。

关键设计:该研究的关键设计包括:1) 选择具有代表性的LLM,例如高评分的LLM;2) 设计涵盖不同HRI任务的测试用例,确保评估的全面性;3) 针对每个任务,设计包含不同身份特征人群的测试用例,例如种族、性别、残疾状况、国籍、宗教等;4) 使用开放词汇输入,评估LLM对不受约束的自然语言指令的响应。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在处理涉及不同身份特征人群时,存在直接的歧视性输出,例如将“吉普赛人”和“哑巴”标记为不值得信任。在开放词汇输入设置下,LLM会接受危险、暴力或非法指令,例如导致事故的错误陈述、拿走人们的行动辅助工具和性侵犯。这些结果突显了LLM在机器人应用中存在的严重风险。

🎯 应用场景

该研究成果可应用于机器人伦理、安全和公平性评估,指导LLM在机器人领域的安全部署。通过改进LLM的训练数据和算法,可以减少歧视和不安全行为的发生,促进人机交互的和谐发展。此外,该研究也为相关政策制定提供了参考依据。

📄 摘要(原文)

Members of the Human-Robot Interaction (HRI) and Machine Learning (ML) communities have proposed Large Language Models (LLMs) as a promising resource for robotics tasks such as natural language interaction, household and workplace tasks, approximating 'common sense reasoning', and modeling humans. However, recent research has raised concerns about the potential for LLMs to produce discriminatory outcomes and unsafe behaviors in real-world robot experiments and applications. To assess whether such concerns are well placed in the context of HRI, we evaluate several highly-rated LLMs on discrimination and safety criteria. Our evaluation reveals that LLMs are currently unsafe for people across a diverse range of protected identity characteristics, including, but not limited to, race, gender, disability status, nationality, religion, and their intersections. Concretely, we show that LLMs produce directly discriminatory outcomes- e.g., 'gypsy' and 'mute' people are labeled untrustworthy, but not 'european' or 'able-bodied' people. We find various such examples of direct discrimination on HRI tasks such as facial expression, proxemics, security, rescue, and task assignment. Furthermore, we test models in settings with unconstrained natural language (open vocabulary) inputs, and find they fail to act safely, generating responses that accept dangerous, violent, or unlawful instructions-such as incident-causing misstatements, taking people's mobility aids, and sexual predation. Our results underscore the urgent need for systematic, routine, and comprehensive risk assessments and assurances to improve outcomes and ensure LLMs only operate on robots when it is safe, effective, and just to do so. We provide code to reproduce our experiments at https://github.com/rumaisa-azeem/llm-robots-discrimination-safety .