User Privacy and Large Language Models: An Analysis of Frontier Developers' Privacy Policies

📄 arXiv: 2509.05382v1 📥 PDF

作者: Jennifer King, Kevin Klyman, Emily Capstick, Tiffany Saade, Victoria Hsieh

分类: cs.CY, cs.AI, cs.CR

发布日期: 2025-09-05

备注: See additional files for appendices


💡 一句话要点

分析前沿AI开发者的隐私政策,揭示LLM用户数据被用于模型训练的现状与风险。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 隐私政策 数据隐私 模型训练 用户数据

📋 核心要点

  1. 大型语言模型开发者在训练数据获取上存在隐私合规问题,用户对其数据使用方式缺乏知情权和控制权。
  2. 通过分析六家前沿AI公司的隐私政策,揭示了用户聊天数据被用于模型训练的普遍现象及其潜在风险。
  3. 研究结果强调了LLM开发者在数据使用上的不透明性,并为政策制定者和开发者提出了改进建议。

📝 摘要(中文)

目前,数亿人通过聊天机器人与大型语言模型进行交互。模型开发者急于获取新的高质量训练数据,以提高模型能力并赢得市场份额。本文分析了六家美国前沿AI开发者的隐私政策,以了解他们如何使用用户的聊天数据来训练模型。主要依据《加州消费者隐私法案》,我们开发了一种新的定性编码模式,并将其应用于每个开发者相关的隐私政策,以比较这六家公司的数据收集和使用实践。我们发现,所有六家开发者似乎默认使用用户的聊天数据来训练和改进他们的模型,并且有些开发者无限期地保留这些数据。开发者可能会收集和训练聊天中披露的个人信息,包括生物识别和健康数据等敏感信息,以及用户上传的文件。我们研究的六家公司中有四家似乎将儿童的聊天数据以及来自其他产品的客户数据用于模型训练。总体而言,开发者的隐私政策通常缺乏关于其行为的重要信息,突显了提高透明度和问责制的必要性。我们讨论了用户对其聊天数据用于模型训练缺乏同意、无限期聊天数据保留引起的数据安全问题以及使用儿童聊天数据进行训练的影响。最后,我们为政策制定者和开发者提出了建议,以应对LLM驱动的聊天机器人带来的数据隐私挑战。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)开发者如何使用用户聊天数据进行模型训练的问题。现有方法的痛点在于,用户通常不清楚自己的聊天数据是否被用于模型训练,以及数据被如何使用,缺乏透明度和控制权。此外,隐私政策往往含糊不清,难以理解,导致用户无法充分了解潜在的隐私风险。

核心思路:论文的核心思路是通过对前沿AI开发者的隐私政策进行细致的分析,揭示他们如何收集、使用和保留用户聊天数据。通过定性编码的方式,将隐私政策中的相关条款进行归类和比较,从而了解不同公司在数据使用上的差异和共性。

技术框架:论文采用了一种定性研究方法,主要包括以下几个阶段: 1. 数据收集:收集六家美国前沿AI开发者的隐私政策。 2. 编码模式开发:基于《加州消费者隐私法案》等相关法律法规,开发一套用于分析隐私政策的编码模式,包括数据收集、数据使用、数据保留等方面。 3. 数据编码:将收集到的隐私政策按照编码模式进行编码,提取关键信息。 4. 数据分析:对编码后的数据进行分析,比较不同公司的数据使用实践,并识别潜在的隐私风险。 5. 结果呈现与建议:总结分析结果,并为政策制定者和开发者提出改进建议。

关键创新:论文的关键创新在于: 1. 定性编码模式:开发了一套专门用于分析LLM开发者隐私政策的编码模式,可以系统地提取和比较不同公司的数据使用实践。 2. 实证分析:通过对六家前沿AI公司的隐私政策进行实证分析,揭示了用户聊天数据被用于模型训练的普遍现象及其潜在风险。 3. 政策建议:基于分析结果,为政策制定者和开发者提出了具体的改进建议,旨在提高LLM数据使用的透明度和问责制。

关键设计:论文的关键设计在于编码模式的构建,该模式需要能够准确地捕捉隐私政策中的关键信息,并能够进行有效的比较。此外,论文还关注了儿童数据保护、数据安全等敏感问题,并在分析中予以重点考虑。

📊 实验亮点

研究发现,所有六家开发者似乎默认使用用户的聊天数据来训练和改进其模型,并且有些开发者无限期地保留这些数据。四家公司似乎将儿童的聊天数据以及来自其他产品的客户数据用于模型训练。这些发现突显了LLM开发者在数据使用上的不透明性,以及用户隐私面临的潜在风险。

🎯 应用场景

该研究结果可应用于指导LLM开发者制定更透明、更负责任的隐私政策,提升用户对数据使用的知情权和控制权。同时,可为政策制定者提供参考,制定更完善的LLM数据隐私监管法规,促进人工智能技术的健康发展。研究也提醒用户在使用LLM服务时,应更加关注自身的隐私保护。

📄 摘要(原文)

Hundreds of millions of people now regularly interact with large language models via chatbots. Model developers are eager to acquire new sources of high-quality training data as they race to improve model capabilities and win market share. This paper analyzes the privacy policies of six U.S. frontier AI developers to understand how they use their users' chats to train models. Drawing primarily on the California Consumer Privacy Act, we develop a novel qualitative coding schema that we apply to each developer's relevant privacy policies to compare data collection and use practices across the six companies. We find that all six developers appear to employ their users' chat data to train and improve their models by default, and that some retain this data indefinitely. Developers may collect and train on personal information disclosed in chats, including sensitive information such as biometric and health data, as well as files uploaded by users. Four of the six companies we examined appear to include children's chat data for model training, as well as customer data from other products. On the whole, developers' privacy policies often lack essential information about their practices, highlighting the need for greater transparency and accountability. We address the implications of users' lack of consent for the use of their chat data for model training, data security issues arising from indefinite chat data retention, and training on children's chat data. We conclude by providing recommendations to policymakers and developers to address the data privacy challenges posed by LLM-powered chatbots.