Privacy of Groups in Dense Street Imagery

📄 arXiv: 2505.07085v1 📥 PDF

作者: Matt Franchi, Hauke Sandhaus, Madiha Zahrah Choksi, Severin Engelmann, Wendy Ju, Helen Nissenbaum

分类: cs.CY, cs.CV, cs.ET

发布日期: 2025-05-11

备注: To appear in ACM Conference on Fairness, Accountability, and Transparency (FAccT) '25


💡 一句话要点

揭示城市街景图像中群体隐私泄露风险,提出针对性隐私保护建议

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 街景图像 群体隐私 匿名化 渗透测试 情境完整性

📋 核心要点

  1. 现有街景图像匿名化方法(如人脸模糊)未能充分解决群体隐私泄露问题,高密度数据和AI技术进步加剧了风险。
  2. 通过渗透测试,揭示了从匿名化街景图像中推断敏感群体信息的可能性,并构建了DSI中可识别群体的类型学。
  3. 研究分析了群体隐私泄露对情境完整性的影响,并为研究人员使用DSI数据提出了可操作的隐私保护建议。

📝 摘要(中文)

时空密集型街景图像(DSI)数据集规模日益增长。截至2024年,各公司已拥有约3万亿张独特的公共街道图像。随着Lyft和Waymo等公司利用DSI训练自动驾驶算法和分析碰撞事故,DSI数据流只会不断增长。学术研究人员也利用DSI探索城市分析的新方法。尽管DSI提供商做出了真诚的努力,通过模糊人脸和车牌来保护个人隐私,但这些措施未能解决更广泛的隐私问题。本文发现,数据密度的增加和人工智能的进步使得从表面上匿名化的数据中推断有害的群体成员关系成为可能。我们进行了一项渗透测试,以展示从纽约市拍摄的25,232,608张行车记录仪图像中推断敏感群体关系是多么容易。我们开发了DSI中可识别群体的类型学,并通过情境完整性的视角分析了隐私影响。最后,我们讨论了研究人员在使用DSI提供商的数据时可采取的行动建议。

🔬 方法详解

问题定义:论文关注的问题是,即使对街景图像中的人脸和车牌进行了模糊处理,仍然可能通过其他线索推断出个体所属的敏感群体信息,从而导致群体隐私泄露。现有方法主要关注个体隐私,忽略了群体层面的隐私风险,并且未能充分考虑到高密度数据和AI技术带来的新挑战。

核心思路:论文的核心思路是通过渗透测试,模拟攻击者利用现有技术从匿名化街景图像中推断群体信息的过程,从而揭示潜在的隐私风险。同时,论文构建了DSI中可识别群体的类型学,并从情境完整性的角度分析了隐私泄露的影响,旨在为研究人员和数据提供商提供更全面的隐私保护指导。

技术框架:论文的技术框架主要包括以下几个阶段:1) 数据收集:收集纽约市的25,232,608张行车记录仪图像。2) 渗透测试:利用AI技术(具体技术未知)尝试从匿名化图像中推断群体信息。3) 类型学构建:分析DSI中可识别的群体类型,例如基于地理位置、穿着、行为等特征的群体。4) 隐私影响分析:从情境完整性的角度分析群体隐私泄露的影响。5) 提出建议:为研究人员和数据提供商提供隐私保护建议。

关键创新:论文的关键创新在于:1) 关注群体隐私而非仅仅个体隐私。2) 通过渗透测试的方式,直观地展示了匿名化数据的隐私风险。3) 构建了DSI中可识别群体的类型学,为隐私保护提供了更具体的指导。4) 从情境完整性的角度分析了隐私泄露的影响,更全面地考虑了隐私的本质。

关键设计:论文没有详细描述具体的AI技术细节,例如渗透测试中使用的具体算法、网络结构、损失函数等。但是,论文强调了数据密度和AI技术在群体隐私泄露中的作用,暗示了可能利用深度学习等技术进行群体信息推断。具体的参数设置和网络结构未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究通过对纽约市25,232,608张行车记录仪图像进行渗透测试,证明了即使经过人脸和车牌模糊处理,仍然可以相对容易地推断出敏感的群体信息。具体的性能数据和提升幅度未知,但研究强调了数据密度和AI技术在隐私泄露中的重要作用。

🎯 应用场景

该研究成果可应用于指导街景图像数据提供商和研究人员采取更有效的隐私保护措施,例如开发更高级的匿名化算法,限制数据访问权限,以及制定更严格的数据使用政策。此外,该研究还可以促进公众对群体隐私问题的关注,推动相关法律法规的制定。

📄 摘要(原文)

Spatially and temporally dense street imagery (DSI) datasets have grown unbounded. In 2024, individual companies possessed around 3 trillion unique images of public streets. DSI data streams are only set to grow as companies like Lyft and Waymo use DSI to train autonomous vehicle algorithms and analyze collisions. Academic researchers leverage DSI to explore novel approaches to urban analysis. Despite good-faith efforts by DSI providers to protect individual privacy through blurring faces and license plates, these measures fail to address broader privacy concerns. In this work, we find that increased data density and advancements in artificial intelligence enable harmful group membership inferences from supposedly anonymized data. We perform a penetration test to demonstrate how easily sensitive group affiliations can be inferred from obfuscated pedestrians in 25,232,608 dashcam images taken in New York City. We develop a typology of identifiable groups within DSI and analyze privacy implications through the lens of contextual integrity. Finally, we discuss actionable recommendations for researchers working with data from DSI providers.