Efficiency and Effectiveness of LLM-Based Summarization of Evidence in Crowdsourced Fact-Checking
作者: Kevin Roitero, Dustin Wright, Michael Soprano, Isabelle Augenstein, Stefano Mizzaro
分类: cs.IR, cs.CL, cs.HC
发布日期: 2025-01-30 (更新: 2025-05-01)
备注: 19 pages; 7 figures; 5 tables
💡 一句话要点
利用LLM摘要提升众包事实核查效率与效果
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 事实核查 众包 大型语言模型 文本摘要 效率提升
📋 核心要点
- 在线内容真实性评估对于打击虚假信息至关重要,但传统方法依赖人工阅读大量原始证据,效率低下。
- 本研究提出利用大型语言模型自动生成证据摘要,以减少人工阅读负担,提高众包事实核查的效率。
- 实验结果表明,基于LLM摘要的方法在保持评估准确性的同时,显著提升了评估效率,降低了成本。
📝 摘要(中文)
本研究旨在评估基于众包的事实核查中,利用大型语言模型(LLM)生成证据摘要的效率和有效性。我们对比了两种方法:一种使用完整网页作为证据,另一种使用LLM生成的证据摘要。通过A/B测试,我们招募参与者评估陈述的真实性。分析结果表明,使用摘要证据在准确性和错误指标上与标准模式相当,但显著提高了效率。在摘要模式下,参与者完成的评估数量更多,减少了任务持续时间和成本。此外,摘要模式最大化了内部一致性,并保持了对证据的稳定依赖和感知有用性,证明了其简化大规模真实性评估的潜力。
🔬 方法详解
问题定义:当前众包事实核查依赖人工阅读完整网页作为证据,耗时且成本高昂,限制了大规模应用。如何提高事实核查的效率,同时保证评估的准确性,是一个亟待解决的问题。
核心思路:利用大型语言模型(LLM)强大的文本摘要能力,自动生成证据网页的精简摘要。通过向众包工作者提供摘要而非全文,减少阅读负担,从而提高评估速度和效率。
技术框架:本研究采用A/B测试框架,将参与者随机分配到两个组:标准组(Standard modality)和摘要组(Summary modality)。标准组使用完整网页作为证据,摘要组使用LLM生成的证据摘要。参与者根据提供的证据评估陈述的真实性。研究分析了两个组的评估质量(准确率、错误率)和行为模式(完成任务数量、任务持续时间、成本、内部一致性、对证据的依赖和感知有用性)。
关键创新:核心创新在于将大型语言模型应用于众包事实核查流程,利用其自动摘要能力优化证据呈现方式,从而在不牺牲准确性的前提下显著提升效率。与传统方法相比,该方法无需人工干预即可生成证据摘要,可扩展性更强。
关键设计:论文使用了A/B测试来对比两种模式的效果。具体使用的LLM模型类型未知,摘要生成的具体参数设置也未知。评估指标包括准确率、错误率、完成任务数量、任务持续时间、成本、内部一致性(internal agreement)、对证据的依赖(reliance on evidence)和感知有用性(perceived usefulness of evidence)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用LLM生成的证据摘要在准确性和错误指标上与使用完整网页作为证据的标准模式相当。更重要的是,摘要模式显著提高了效率,参与者完成的评估数量更多,减少了任务持续时间和成本,并最大化了内部一致性,同时保持了对证据的稳定依赖和感知有用性。
🎯 应用场景
该研究成果可应用于大规模在线内容的事实核查平台,例如社交媒体平台、新闻聚合网站等。通过自动生成证据摘要,可以显著降低人工审核成本,提高虚假信息识别和处理的速度,从而维护网络信息生态的健康。未来,该方法还可以扩展到其他需要快速信息处理的领域,例如法律文件审查、医学文献综述等。
📄 摘要(原文)
Evaluating the truthfulness of online content is critical for combating misinformation. This study examines the efficiency and effectiveness of crowdsourced truthfulness assessments through a comparative analysis of two approaches: one involving full-length webpages as evidence for each claim, and another using summaries for each evidence document generated with a large language model. Using an A/B testing setting, we engage a diverse pool of participants tasked with evaluating the truthfulness of statements under these conditions. Our analysis explores both the quality of assessments and the behavioral patterns of participants. The results reveal that relying on summarized evidence offers comparable accuracy and error metrics to the Standard modality while significantly improving efficiency. Workers in the Summary setting complete a significantly higher number of assessments, reducing task duration and costs. Additionally, the Summary modality maximizes internal agreement and maintains consistent reliance on and perceived usefulness of evidence, demonstrating its potential to streamline large-scale truthfulness evaluations.