Probing LLM World Models: Enhancing Guesstimation with Wisdom of Crowds Decoding

作者: Yun-Shiuan Chuang, Sameer Narendran, Nikunj Harlalka, Alexander Cheung, Sizhe Gao, Siddharth Suresh, Junjie Hu, Timothy T. Rogers

分类: cs.AI, cs.HC

发布日期: 2025-01-28 (更新: 2025-09-23)

💡 一句话要点

提出基于群体智慧解码（WOC）的大语言模型（LLM）估算方法，提升世界知识利用率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 估算任务 群体智慧 解码策略 世界知识

📋 核心要点

现有LLM研究对估算任务关注不足，缺乏有效方法来评估和提升LLM对现实世界知识的利用。
提出群体智慧解码（WOC）方法，通过聚合多个LLM输出的中位数来提高估算准确性，模拟人类的群体智慧效应。
实验表明，WOC解码在多个估算数据集上显著优于其他解码策略，验证了LLM具备进行近似推理的世界模型能力。

📝 摘要（中文）

本文探讨了大语言模型（LLM）在估算任务中的表现，该任务旨在对物体或事件进行近似定量估计，是一项常见的现实世界技能，但在LLM研究中尚未得到充分探索。作者构建了三个估算数据集：MARBLES、FUTURE和ELECPRED，涵盖了从物理估计（例如，一个杯子里能装多少个弹珠）到抽象预测（例如，2024年美国总统选举）等任务。受社会科学中“群体智慧（WOC）”概念的启发——即多个估计的中位数可以提高准确性——作者提出了用于LLM的WOC解码方法。他们在人类参与者中复制了WOC效应，并发现LLM也表现出类似的好处：跨采样响应的中位数聚合始终优于贪婪解码、自洽性解码和平均解码，从而提高了准确性。这表明LLM编码了一个支持近似推理的世界模型。研究结果表明，估算可以作为LLM世界知识的有用探针，并强调WOC解码是提高LLM在现实世界任务中估算性能的一种策略。

🔬 方法详解

问题定义：论文旨在解决LLM在进行估算任务时准确性不足的问题。现有的LLM解码策略，如贪婪解码和自洽性解码，无法有效利用LLM内部蕴含的世界知识进行准确的定量估计。因此，如何设计一种解码策略，能够更好地挖掘和利用LLM的世界模型，提高其估算能力，是本文要解决的核心问题。

核心思路：论文的核心思路是借鉴社会科学中的“群体智慧（Wisdom of Crowds, WOC）”概念。WOC指出，多个独立估计的中位数通常比单个专家的估计更准确。因此，论文提出通过多次采样LLM的输出，然后取这些输出的中位数作为最终的估算结果，从而提高估算的准确性。这种方法能够有效地降低单个错误估计的影响，利用LLM内部多个“专家”的知识进行综合判断。

技术框架：整体框架包括以下几个步骤：1) 使用特定的提示语（prompt）向LLM提出估算问题；2) 对LLM进行多次采样，获得多个不同的估算结果；3) 计算这些估算结果的中位数，作为最终的估算值。该框架的核心在于WOC解码策略，即中位数聚合。

关键创新：最重要的技术创新点在于将群体智慧的概念引入到LLM的解码过程中。与传统的解码方法不同，WOC解码不是简单地选择概率最高的输出，而是通过聚合多个采样结果的中位数来获得最终的估计值。这种方法能够有效地利用LLM内部蕴含的多个可能的答案，从而提高估算的准确性。

关键设计：关键设计包括：1) 提示语的设计，需要确保LLM能够理解并正确回答估算问题；2) 采样次数的选择，需要权衡计算成本和准确性提升；3) 中位数的计算方法，确保能够有效地聚合多个估计值。论文中没有明确提及具体的损失函数或网络结构，因为WOC解码是一种后处理方法，可以应用于不同的LLM和不同的任务。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在MARBLES、FUTURE和ELECPRED三个数据集上，WOC解码方法均显著优于贪婪解码、自洽性解码和平均解码。例如，在某些数据集上，WOC解码的准确率提升了10%以上。此外，研究还发现，LLM的估算能力与模型规模呈正相关，更大的模型通常能够给出更准确的估计。

🎯 应用场景

该研究成果可应用于需要进行定量估计的各种场景，例如市场预测、风险评估、资源规划等。通过利用LLM的估算能力，可以为决策提供更准确的参考信息。此外，WOC解码方法也可以推广到其他需要提高LLM输出可靠性的任务中，具有广泛的应用前景。

📄 摘要（原文）

Guesstimation -- the task of making approximate quantitative estimates about objects or events -- is a common real-world skill, yet remains underexplored in large language model (LLM) research. We introduce three guesstimation datasets: MARBLES, FUTURE, and ELECPRED, spanning physical estimation (e.g., how many marbles fit in a cup) to abstract predictions (e.g., the 2024 U.S. presidential election). Inspired by the social science concept of Wisdom of Crowds (WOC)- where the median of multiple estimates improves accuracy-we propose WOC decoding for LLMs. We replicate WOC effects in human participants and find that LLMs exhibit similar benefits: median aggregation across sampled responses consistently improves accuracy over greedy decoding, self-consistency decoding, and mean decoding. This suggests that LLMs encode a world model that supports approximate reasoning. Our results position guesstimation as a useful probe of LLM world knowledge and highlight WOC decoding as a strategy for enhancing LLM guesstimation performance on real-world tasks.

Probing LLM World Models: Enhancing Guesstimation with Wisdom of Crowds Decoding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理