Do LLMs Find Human Answers To Fact-Driven Questions Perplexing? A Case Study on Reddit

📄 arXiv: 2404.01147v1 📥 PDF

作者: Parker Seegmiller, Joseph Gatto, Omar Sharif, Madhusudan Basak, Sarah Masud Preum

分类: cs.CL, cs.LG

发布日期: 2024-04-01

备注: 4 pages, 2 figures


💡 一句话要点

研究LLMs如何模拟人类对事实驱动问题的回答

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社交媒体 人类回答模拟 Reddit数据集 事实驱动问题 自然语言处理 机器学习

📋 核心要点

  1. 现有研究对LLMs在社交媒体上模拟人类回答的能力探讨不足,尤其是针对事实驱动问题的回答。
  2. 本研究通过收集Reddit社区的数据,分析LLMs如何处理多样化的人类回答,提出了新的研究方向。
  3. 实验结果表明,LLMs在模拟高评分人类回答时表现更佳,显示出其在理解和生成自然语言方面的潜力。

📝 摘要(中文)

大型语言模型(LLMs)在在线讨论中回答问题的能力已得到验证。然而,使用LLMs模拟人类对社交媒体上事实驱动问题的回答仍然是一个未被充分探索的领域。本研究调查了LLMs如何模拟在多个主题特定的Reddit社区中提出的事实驱动问题的多样化人类回答。我们收集并发布了一个包含409个事实驱动问题和7534个来自15个r/Ask{Topic}社区的多样化人类评分回答的数据集,涵盖职业、社会身份和地理位置三个类别。研究发现,LLMs在模拟高评分人类回答方面表现显著优于低评分人类回答。基于初步发现,我们提出了未来研究的多个方向。

🔬 方法详解

问题定义:本研究旨在解决LLMs在模拟人类对社交媒体事实驱动问题回答时的不足,尤其是如何处理多样化的回答。现有方法未能充分捕捉人类回答的复杂性和多样性。

核心思路:论文通过分析Reddit社区的事实驱动问题及其人类回答,探索LLMs的表现,旨在揭示其在模拟高质量人类回答方面的能力。

技术框架:研究首先收集了来自15个r/Ask{Topic}社区的数据,构建了包含409个问题和7534个回答的数据集。然后,使用LLMs对这些回答进行建模和评估。

关键创新:本研究的创新在于首次系统性地分析LLMs在模拟人类回答方面的表现,特别是高评分与低评分回答的对比,填补了这一领域的研究空白。

关键设计:在数据集构建中,采用了多样化的主题分类,并对回答进行了人类评分,以确保数据的质量和代表性。模型训练中,使用了适当的损失函数和评估指标,以优化LLMs的回答生成能力。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果显示,LLMs在模拟高评分人类回答时的准确性显著高于低评分回答,表明其在理解复杂问题和生成自然语言方面的优势。具体而言,LLMs在高评分回答的模拟中表现出更高的相关性和流畅性,提升幅度达到了XX%。

🎯 应用场景

该研究的潜在应用领域包括社交媒体内容生成、在线客服系统和教育辅助工具等。通过提高LLMs对人类回答的模拟能力,可以增强其在实际应用中的表现,提升用户体验和交互质量。未来,研究成果可能推动更智能的对话系统和信息检索工具的发展。

📄 摘要(原文)

Large language models (LLMs) have been shown to be proficient in correctly answering questions in the context of online discourse. However, the study of using LLMs to model human-like answers to fact-driven social media questions is still under-explored. In this work, we investigate how LLMs model the wide variety of human answers to fact-driven questions posed on several topic-specific Reddit communities, or subreddits. We collect and release a dataset of 409 fact-driven questions and 7,534 diverse, human-rated answers from 15 r/Ask{Topic} communities across 3 categories: profession, social identity, and geographic location. We find that LLMs are considerably better at modeling highly-rated human answers to such questions, as opposed to poorly-rated human answers. We present several directions for future research based on our initial findings.