Conversational AI Powered by Large Language Models Amplifies False Memories in Witness Interviews
作者: Samantha Chan, Pat Pataranutaporn, Aditya Suri, Wazeer Zulfikar, Pattie Maes, Elizabeth F. Loftus
分类: cs.CL, cs.AI, cs.CY, cs.HC
发布日期: 2024-08-08
💡 一句话要点
大型语言模型驱动的对话式AI在目击者访谈中显著增强虚假记忆
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 虚假记忆 大型语言模型 对话式AI 人机交互 目击者访谈
📋 核心要点
- 现有方法难以评估大型语言模型在人机交互中对虚假记忆的影响,尤其是在模拟目击者访谈等敏感场景。
- 本研究通过对比不同类型的AI交互方式,揭示了生成式聊天机器人更容易诱导虚假记忆,并分析了用户特征的影响。
- 实验结果表明,生成式聊天机器人诱导的虚假记忆显著高于其他方法,且用户对其虚假记忆的信心更高,凸显了潜在风险。
📝 摘要(中文)
本研究探讨了人工智能对人类虚假记忆的影响——即对未发生事件或与实际发生事件不符的回忆。研究通过人机交互中的暗示性提问来诱导虚假记忆,模拟犯罪目击者访谈。实验测试了四种条件:对照组、基于调查问卷组、预设脚本聊天机器人组和使用大型语言模型(LLM)的生成式聊天机器人组。参与者(N=200)观看了一段犯罪视频,然后与分配给他们的AI面试官或调查问卷互动,回答问题,其中包括五个误导性问题。立即和一周后评估虚假记忆。结果表明,生成式聊天机器人条件显著增加了虚假记忆的形成,诱导的即时虚假记忆是对照组的3倍以上,是调查问卷组的1.7倍。36.4%的用户对生成式聊天机器人的回答受到误导。一周后,生成式聊天机器人诱导的虚假记忆数量保持不变。然而,一周后,对这些虚假记忆的信心仍然高于对照组。研究还探讨了调节因素:不太熟悉聊天机器人但更熟悉AI技术,并且对犯罪调查更感兴趣的用户更容易受到虚假记忆的影响。这些发现突出了在警察访谈等敏感环境中使用先进AI的潜在风险,强调了伦理考量的重要性。
🔬 方法详解
问题定义:本研究旨在量化和分析大型语言模型驱动的对话式AI在模拟犯罪目击者访谈中诱导虚假记忆的程度。现有方法缺乏对这种新型人机交互方式下虚假记忆形成机制的深入研究,无法有效评估其潜在风险。传统的调查问卷和预设脚本聊天机器人无法模拟真实对话的复杂性和灵活性,可能低估了AI的影响。
核心思路:核心思路是通过对比不同类型的AI交互方式(包括预设脚本聊天机器人和生成式聊天机器人)与传统调查问卷和对照组,来评估大型语言模型在诱导虚假记忆方面的作用。研究假设生成式聊天机器人由于其更自然的对话能力,更容易通过暗示性提问来影响用户的记忆。
技术框架:整体实验流程包括:1) 参与者观看一段犯罪视频;2) 参与者被随机分配到四个条件之一:对照组、调查问卷组、预设脚本聊天机器人组和生成式聊天机器人组;3) 参与者与分配的AI面试官或调查问卷互动,回答问题,其中包括五个误导性问题;4) 立即和一周后评估虚假记忆。生成式聊天机器人基于大型语言模型构建,能够根据用户的回答动态生成问题。
关键创新:最重要的技术创新点在于使用大型语言模型构建生成式聊天机器人,并将其应用于虚假记忆研究。与传统的预设脚本聊天机器人相比,生成式聊天机器人能够进行更自然、更灵活的对话,从而更容易通过暗示性提问来影响用户的记忆。
关键设计:实验的关键设计包括:1) 使用标准化的犯罪视频作为刺激材料;2) 设计包含误导性问题的访谈流程;3) 使用标准化的虚假记忆评估方法;4) 控制参与者的背景变量,并分析其对虚假记忆的影响。生成式聊天机器人的具体参数设置和训练细节未知,论文中未详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,生成式聊天机器人诱导的即时虚假记忆是对照组的3倍以上,是调查问卷组的1.7倍。36.4%的用户对生成式聊天机器人的回答受到误导。一周后,生成式聊天机器人诱导的虚假记忆数量保持不变,但用户对其虚假记忆的信心仍然高于对照组。这些数据表明,大型语言模型驱动的对话式AI具有显著增强虚假记忆的潜力。
🎯 应用场景
该研究成果对刑事司法系统、心理治疗和教育等领域具有重要意义。在刑事司法领域,需要谨慎使用AI辅助的访谈工具,以避免诱导虚假记忆,影响案件调查的公正性。在心理治疗领域,需要关注AI对患者记忆的影响,避免加剧或扭曲患者的创伤经历。在教育领域,需要提高公众对AI潜在风险的认识,增强其批判性思维能力。
📄 摘要(原文)
This study examines the impact of AI on human false memories -- recollections of events that did not occur or deviate from actual occurrences. It explores false memory induction through suggestive questioning in Human-AI interactions, simulating crime witness interviews. Four conditions were tested: control, survey-based, pre-scripted chatbot, and generative chatbot using a large language model (LLM). Participants (N=200) watched a crime video, then interacted with their assigned AI interviewer or survey, answering questions including five misleading ones. False memories were assessed immediately and after one week. Results show the generative chatbot condition significantly increased false memory formation, inducing over 3 times more immediate false memories than the control and 1.7 times more than the survey method. 36.4% of users' responses to the generative chatbot were misled through the interaction. After one week, the number of false memories induced by generative chatbots remained constant. However, confidence in these false memories remained higher than the control after one week. Moderating factors were explored: users who were less familiar with chatbots but more familiar with AI technology, and more interested in crime investigations, were more susceptible to false memories. These findings highlight the potential risks of using advanced AI in sensitive contexts, like police interviews, emphasizing the need for ethical considerations.