When Incentives Backfire, Data Stops Being Human
作者: Sebastin Santy, Prasanta Bhattacharya, Manoel Horta Ribeiro, Kelsey Allen, Sewoong Oh
分类: cs.CY, cs.AI, cs.CL, cs.CV, cs.HC, cs.LG
发布日期: 2025-02-11 (更新: 2025-06-07)
备注: Position Paper at ICML 2025
💡 一句话要点
重新思考数据收集系统,利用内在动机维持高质量数据来源
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数据收集 内在动机 外部激励 数据质量 人工智能伦理
📋 核心要点
- 现有数据收集系统过度依赖外部激励,忽视了人类的内在动机,导致数据质量下降和参与度降低。
- 论文提出重新设计数据收集系统,强调与贡献者内在动机的对齐,以提升数据质量和维持长期参与。
- 该研究旨在解决AI发展对高质量人类生成数据的依赖问题,并探索可持续的数据收集方法。
📝 摘要(中文)
人工智能的进步依赖于人类生成的数据,从标注市场到更广阔的互联网。然而,大型语言模型的广泛使用现在威胁着这些平台上人类生成数据的质量和完整性。我们认为,这个问题不仅仅是过滤人工智能生成内容的直接挑战,它还揭示了数据收集系统设计中更深层次的缺陷。现有的系统通常以牺牲人类内在动机为代价,优先考虑速度、规模和效率,导致参与度和数据质量下降。我们提出,重新思考数据收集系统,使其与贡献者的内在动机相一致,而不是仅仅依赖外部激励,可以帮助以规模化方式维持高质量的数据来源,同时保持贡献者的信任和长期参与。
🔬 方法详解
问题定义:论文关注的问题是,当前AI发展严重依赖人类生成的数据,但现有数据收集系统的设计缺陷(过度依赖外部激励,忽视内在动机)导致数据质量下降,并威胁到人类生成数据的长期可持续性。现有方法主要关注速度、规模和效率,忽略了贡献者的内在动机,导致数据质量和参与度下降。
核心思路:论文的核心思路是,重新思考数据收集系统的设计,将贡献者的内在动机纳入考虑,而非仅仅依赖外部激励。通过激发贡献者的内在动机,可以提高数据质量,维持贡献者的长期参与,并建立贡献者对平台的信任。
技术框架:论文并没有提出一个具体的、可直接实现的技术框架,而更多的是一种设计理念和指导原则。其核心在于对现有数据收集流程的重新审视和改进,例如: 1. 动机识别:识别不同类型贡献者的内在动机(例如,学习、社交、创造等)。 2. 系统设计:设计能够满足这些内在动机的数据收集系统(例如,提供学习机会、社交互动、创作空间等)。 3. 激励调整:调整外部激励机制,使其与内在动机相辅相成,避免过度激励带来的负面影响。
关键创新:论文的关键创新在于,它强调了数据收集系统中内在动机的重要性,并提出了将内在动机纳入系统设计的思路。这与现有方法中过度依赖外部激励的思路形成了鲜明对比。论文指出,仅仅依靠金钱等外部激励,可能会导致数据质量下降,甚至损害贡献者的信任。
关键设计:论文并没有提供具体的参数设置或网络结构等技术细节。其关键设计在于对数据收集流程的整体设计理念,强调以下几点: 1. 透明度:清晰地告知贡献者数据的使用方式和目的。 2. 自主性:允许贡献者自主选择参与的项目和任务。 3. 反馈机制:提供及时的反馈,让贡献者了解自己的贡献价值。 4. 社区建设:建立贡献者社区,促进交流和合作。
🖼️ 关键图片
📊 实验亮点
论文的核心贡献在于提出了数据收集系统设计的新思路,强调内在动机的重要性。虽然论文没有提供具体的实验数据,但其提出的理念对于解决当前数据收集面临的挑战具有重要的指导意义。该研究为未来数据收集系统的设计提供了新的方向,并有望提升数据质量和贡献者的参与度。
🎯 应用场景
该研究成果可应用于各种需要大规模数据收集的领域,例如:自然语言处理、计算机视觉、推荐系统等。通过激发数据贡献者的内在动机,可以提高数据质量,降低数据收集成本,并建立可持续的数据收集生态系统。该研究对于构建更负责任、更可持续的人工智能发展模式具有重要意义。
📄 摘要(原文)
Progress in AI has relied on human-generated data, from annotator marketplaces to the wider Internet. However, the widespread use of large language models now threatens the quality and integrity of human-generated data on these very platforms. We argue that this issue goes beyond the immediate challenge of filtering AI-generated content -- it reveals deeper flaws in how data collection systems are designed. Existing systems often prioritize speed, scale, and efficiency at the cost of intrinsic human motivation, leading to declining engagement and data quality. We propose that rethinking data collection systems to align with contributors' intrinsic motivations -- rather than relying solely on external incentives -- can help sustain high-quality data sourcing at scale while maintaining contributor trust and long-term participation.