Reassessing Active Learning Adoption in Contemporary NLP: A Community Survey
作者: Julia Romberg, Christopher Schröder, Julius Gonsior, Katrin Tomanek, Fredrik Olsson
分类: cs.CL, cs.LG
发布日期: 2025-03-12 (更新: 2025-10-18)
💡 一句话要点
通过社区调查重新评估主动学习在现代NLP中的应用现状与挑战
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主动学习 自然语言处理 社区调查 数据标注 大型语言模型
📋 核心要点
- 现有主动学习方法在实际应用中面临设置复杂、成本降低不确定以及缺乏有效工具等挑战。
- 该研究通过对NLP社区进行在线调查,收集关于主动学习实践、障碍和未来前景的见解。
- 调查结果表明,数据标注和主动学习仍然重要,但需要解决设置复杂性等长期存在的挑战。
📝 摘要(中文)
监督学习依赖于数据标注,而数据标注通常耗时且成本高昂。主动学习是一种长期存在的降低标注成本的策略,它是一个迭代过程,其中人类只标注模型认为信息量大的数据实例。主动学习的研究取得了显著进展,尤其是在大型语言模型(LLM)兴起之后。然而,我们仍然不清楚这些显著的进步如何转化为实际应用,或者如何有助于消除主动学习应用的关键障碍。为了填补这一空白,我们对NLP社区进行了一项在线调查,以收集先前难以获得的关于当前实施实践、应用中的常见障碍以及主动学习的未来前景的见解。我们还重新评估了数据标注和主动学习作为基本假设的相关性。我们的研究结果表明,数据标注预计将保持重要性,而主动学习将保持相关性,同时受益于LLM。与15年前的社区调查一致,三个关键挑战仍然存在——设置复杂性、不确定的成本降低和工具——为此我们提出了缓解策略。我们发布了数据集的匿名版本。
🔬 方法详解
问题定义:论文旨在调查和分析主动学习在现代自然语言处理(NLP)领域的应用现状、面临的挑战以及未来的发展趋势。现有主动学习方法在实际应用中存在一些痛点,例如设置复杂、成本效益不明确、缺乏易用的工具等,导致其应用普及程度不高。
核心思路:论文的核心思路是通过对NLP社区进行大规模的在线调查,收集从业者对于主动学习的实际应用经验、遇到的问题以及对未来发展的看法。通过分析这些数据,可以更全面地了解主动学习的现状,并为解决现有问题提供指导。
技术框架:该研究采用问卷调查的方式,设计了一系列问题,涵盖了主动学习的应用场景、面临的挑战、使用的工具以及对未来发展的期望等。然后,将问卷分发给NLP社区的从业者,收集他们的反馈。最后,对收集到的数据进行统计分析,总结出主动学习的现状、挑战和未来趋势。
关键创新:该研究的主要创新在于它采用了一种社区调查的方式,从实际应用者的角度出发,了解主动学习的现状和问题。这种方法可以避免研究者主观臆断,更准确地反映实际情况。此外,该研究还对15年前的类似调查进行了对比,分析了主动学习领域的发展变化。
关键设计:问卷的设计是该研究的关键。问卷需要涵盖主动学习的各个方面,同时又要简洁明了,方便受访者填写。此外,数据的统计分析方法也需要 carefully 选择,以确保结果的准确性和可靠性。论文发布了匿名化的数据集,方便其他研究者进行进一步的分析和研究。
🖼️ 关键图片
📊 实验亮点
调查结果显示,数据标注仍然重要,主动学习仍然相关,并受益于大型语言模型。然而,设置复杂性、成本降低不确定性和工具仍然是主要挑战。该研究对比了15年前的调查,揭示了主动学习领域的发展变化,并提出了缓解这些挑战的策略。
🎯 应用场景
该研究结果可应用于指导主动学习算法的实际部署和应用,帮助研究人员和工程师更好地理解主动学习的优势和局限性,并针对性地解决实际应用中遇到的问题。此外,该研究还可以为主动学习工具的开发提供指导,促进主动学习在NLP领域的更广泛应用。
📄 摘要(原文)
Supervised learning relies on data annotation which usually is time-consuming and therefore expensive. A longstanding strategy to reduce annotation costs is active learning, an iterative process, in which a human annotates only data instances deemed informative by a model. Research in active learning has made considerable progress, especially with the rise of large language models (LLMs). However, we still know little about how these remarkable advances have translated into real-world applications, or contributed to removing key barriers to active learning adoption. To fill in this gap, we conduct an online survey in the NLP community to collect previously intangible insights on current implementation practices, common obstacles in application, and future prospects in active learning. We also reassess the perceived relevance of data annotation and active learning as fundamental assumptions. Our findings show that data annotation is expected to remain important and active learning to stay relevant while benefiting from LLMs. Consistent with a community survey from over 15 years ago, three key challenges yet persist -- setup complexity, uncertain cost reduction, and tooling -- for which we propose alleviation strategies. We publish an anonymized version of the dataset.