Can Crowdsourcing Survive the LLM Era? A Community Survey on Human Data Collection

📄 arXiv: 2606.04924v1 📥 PDF

作者: Aswathy Velutharambath, Neele Falk, Sofie Labat, Tarun Tater, Amelie Wuehrl

分类: cs.CL

发布日期: 2026-06-03


💡 一句话要点

调查LLM时代众包数据收集的挑战与应对策略

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 众包数据收集 大型语言模型 自然语言处理 数据质量 调查研究

📋 核心要点

  1. 核心问题:大型语言模型的使用对众包数据的有效性构成挑战,导致数据质量下降。
  2. 方法要点:通过对研究者的调查,识别众包数据收集中的挑战及应对策略。
  3. 实验或效果:调查结果显示,研究社区已意识到问题,但现有应对措施仍显不足。

📝 摘要(中文)

随着大型语言模型(LLMs)作为写作工具的广泛应用,众包数据的有效性面临挑战,因为众包工作者可能将任务外包给模型。为了解决这一问题,我们对155名自然语言处理及相关领域的研究者进行了调查,了解他们在通过众包收集自由文本响应时的经验和看法。研究显示,44%的受访者观察到众包数据中存在LLM的使用,尽管93%的人预见到了这一点,但一半的人对应采取的预防措施感到不确定。最常见的检测策略包括独特的文本风格模式和异常快速的完成时间。总体而言,研究社区意识到这一问题并采取了措施,但现有努力仍不足以完全解决问题。最后,我们提出了一系列考虑因素,以指导未来在LLM时代的众包自由文本数据收集。

🔬 方法详解

问题定义:本论文旨在解决在大型语言模型(LLMs)普遍应用背景下,众包数据收集的有效性和数据质量问题。现有方法未能充分应对LLM对众包数据的影响,导致数据的可靠性受到质疑。

核心思路:论文通过对155名研究者的调查,收集他们在众包数据收集中的经验和看法,旨在识别出当前面临的挑战及有效的应对策略。这样的设计使得研究能够从实践者的角度出发,提供更具针对性的解决方案。

技术框架:研究采用问卷调查的方式,主要模块包括:受访者背景信息、对LLM使用的观察、应对策略的有效性评估等。通过分析这些数据,得出对未来众包数据收集的指导建议。

关键创新:本研究的创新点在于首次系统性地调查了LLM对众包数据收集的影响,并提出了具体的应对策略。这与现有研究的主要区别在于,前者侧重于实践者的反馈,而后者多集中于理论探讨。

关键设计:调查设计中,关键参数包括受访者的专业背景、对LLM使用的观察频率、以及采取的检测策略等。调查结果显示,受访者普遍采用文本风格模式和完成时间作为检测LLM使用的主要手段。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

调查结果显示,44%的受访者观察到众包数据中存在LLM的使用,93%的人对此有所预见,但一半的人对应采取的措施感到不确定。最常见的检测策略包括独特的文本风格模式和异常快速的完成时间,表明研究社区对问题的关注和应对。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、数据收集和众包平台的设计。通过识别和应对LLM对众包数据质量的影响,研究为未来的众包数据收集提供了重要的指导,提升了数据的可靠性和有效性,具有重要的实际价值和长远影响。

📄 摘要(原文)

The widespread use of Large Language Models (LLMs) as writing tools challenges the validity of crowdsourced data, as crowdworkers may outsource tasks to models. To better understand how this is addressed, we surveyed 155 researchers in NLP and related disciplines about their experiences and opinions on collecting free-text responses via crowdsourcing. This paper provides an overview of practitioners' challenges, mitigation strategies, and the foreseen implications on data quality. 44% of respondents reported observing LLM usage in their crowdsourced data. While 93% of them had anticipated this, half were unsure what precautions to take. The most prevalent detection strategies are distinctive textual style patterns and unusually fast completion times. Overall, survey responses show that the research community is aware of the problem and taking measures, but existing efforts remain insufficient to fully address it. Finally, we derive a set of considerations to guide future crowdsourced free-text data collection in the era of LLMs.