Generative Social Choice: The Next Generation

📄 arXiv: 2505.22939v1 📥 PDF

作者: Niclas Boehmer, Sara Fish, Ariel D. Procaccia

分类: cs.GT, cs.AI, cs.LG

发布日期: 2025-05-28

备注: Accepted to ICML 2025


💡 一句话要点

提出生成式社会选择框架扩展,解决语句长度预算约束下用户意见代表性摘要生成问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式社会选择 大型语言模型 用户意见摘要 代表性摘要 长度预算约束

📋 核心要点

  1. 现有方法在生成代表性用户意见摘要时,无法有效处理语句长度预算限制,且对查询质量敏感。
  2. 论文扩展生成式社会选择框架,通过理论保证和长度预算约束,提升摘要的代表性和实用性。
  3. 实验利用GPT-4o在城市改善和药物评论数据集上验证了方法,证明其能有效生成代表性摘要。

📝 摘要(中文)

在某些民主进程中,一项关键任务是生成一份简洁的陈述清单,以按比例代表用户意见的完整范围。这项任务类似于委员会选举,但与传统设置不同,候选集包含所有可能长度的陈述,因此只能通过特定查询访问。先前的工作结合社会选择和大型语言模型,通过生成式社会选择框架来解决这一挑战。本文以两种基本方式扩展了该框架,即使在面对近似最优查询和总体清单长度的预算限制时,也能提供理论保证。使用 GPT-4o 来实现查询,我们在与城市改善措施和药物评论相关的数据集上展示了我们的方法,证明了其在从非结构化用户意见中生成代表性清单方面的有效性。

🔬 方法详解

问题定义:论文旨在解决在有长度预算约束的情况下,如何从大量非结构化用户意见中生成最具代表性的语句摘要。现有方法在处理候选语句集庞大且只能通过查询访问的场景时,缺乏理论保证,并且容易受到查询质量的影响。此外,实际应用中往往存在语句长度的预算限制,现有方法对此考虑不足。

核心思路:论文的核心思路是扩展生成式社会选择框架,使其能够处理近似最优查询,并引入对总体语句长度的预算约束。通过理论分析,保证即使在查询结果并非完全最优的情况下,也能生成具有代表性的摘要。同时,通过优化算法,在满足长度预算的前提下,最大化摘要的代表性。

技术框架:整体框架包含以下几个主要阶段:1) 使用大型语言模型(如GPT-4o)生成候选语句,这些语句代表了用户意见的不同方面。2) 设计社会选择函数,用于评估候选语句的代表性。3) 引入长度预算约束,限制最终摘要的总体长度。4) 开发优化算法,在满足长度预算约束的前提下,选择最具代表性的语句子集。

关键创新:论文的关键创新在于:1) 提供了在近似最优查询下的理论保证,使得方法对查询质量的鲁棒性更强。2) 引入了长度预算约束,使得方法更适用于实际应用场景。3) 将社会选择理论与大型语言模型相结合,为生成代表性用户意见摘要提供了一种新的思路。

关键设计:论文的关键设计包括:1) 使用GPT-4o作为查询引擎,生成高质量的候选语句。2) 设计合适的社会选择函数,例如基于投票规则或距离度量的函数,以评估语句的代表性。3) 开发高效的优化算法,例如贪心算法或动态规划算法,以在满足长度预算约束的前提下,选择最优的语句子集。具体的参数设置和损失函数取决于具体的应用场景和数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够有效地从非结构化用户意见中生成代表性摘要。在城市改善和药物评论数据集上,使用GPT-4o作为查询引擎,该方法能够在满足长度预算约束的前提下,生成比现有方法更具代表性的摘要。具体性能数据和提升幅度未知,但论文强调了其在生成代表性摘要方面的有效性。

🎯 应用场景

该研究成果可应用于多种场景,例如:城市规划中收集市民意见并生成改进措施摘要;药物研发中分析患者评论并总结药物优缺点;在线论坛中提取用户观点并形成共识性声明。通过生成代表性摘要,可以帮助决策者更好地理解用户需求,从而做出更明智的决策。

📄 摘要(原文)

A key task in certain democratic processes is to produce a concise slate of statements that proportionally represents the full spectrum of user opinions. This task is similar to committee elections, but unlike traditional settings, the candidate set comprises all possible statements of varying lengths, and so it can only be accessed through specific queries. Combining social choice and large language models, prior work has approached this challenge through a framework of generative social choice. We extend the framework in two fundamental ways, providing theoretical guarantees even in the face of approximately optimal queries and a budget limit on the overall length of the slate. Using GPT-4o to implement queries, we showcase our approach on datasets related to city improvement measures and drug reviews, demonstrating its effectiveness in generating representative slates from unstructured user opinions.