Generative AI Voting: Fair Collective Choice is Resilient to LLM Biases and Inconsistencies

📄 arXiv: 2406.11871v4 📥 PDF

作者: Srijoni Majumdar, Edith Elkind, Evangelos Pournaras

分类: cs.AI

发布日期: 2024-05-31 (更新: 2025-04-09)

备注: 23 pages, 5 figures


💡 一句话要点

利用生成式AI投票提升直接民主韧性:公平集体选择抵御LLM偏差与不一致性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式AI 大型语言模型 集体决策 投票偏差 公平投票 民主韧性 AI代表性

📋 核心要点

  1. 大规模审议和投票参与面临认知带宽限制,现有方法难以有效支持直接民主和合法的集体选择。
  2. 论文提出利用生成式AI作为个人助理,克服人类认知限制,辅助决策甚至直接代表选民,实现公平投票。
  3. 实验表明,公平的投票聚合方法能有效减轻LLM偏差,提升AI代表性,尤其对降低弃权率有积极作用。

📝 摘要(中文)

本文旨在解决将大型语言模型(LLM)应用于集体决策时产生的偏差问题。研究通过模拟超过5万个LLM投票角色,在306个真实选举中评估了GPT-3、GPT-3.5和Llama2等模型的偏差。结果表明,复杂的偏好投票形式比简单的多数选举表现出更大的不一致性。然而,通过在真实世界中首次展示选民的比例代表制,研究发现公平的投票聚合方法(如等额份额)能够实现双赢:为人类提供更公平的投票结果,并实现更公平的AI代表,尤其是有助于那些可能弃权的选民。这种新型关系对于在低投票率和选民疲劳的情况下,通过AI代表支持的直接民主的韧性至关重要,因为弃权选民的影响可以通过恢复具有高度代表性的投票结果来减轻。这些跨学科的见解为科学界、政策制定者和公民开发针对民主创新中AI风险的保障措施和韧性提供了基础。

🔬 方法详解

问题定义:论文旨在解决将大型语言模型(LLM)应用于集体决策时,由于LLM固有的偏差和不一致性,可能导致不公平或不具代表性的集体选择的问题。现有方法缺乏对LLM偏差的充分理解和有效缓解机制,尤其是在复杂的投票场景下,LLM的表现不稳定,可能损害民主决策的公正性。

核心思路:论文的核心思路是深入分析LLM在不同投票场景下的偏差表现,并探索公平的投票聚合方法,以减轻这些偏差的影响。通过模拟大量LLM投票角色,并在真实世界的选举数据上进行实验,研究旨在揭示LLM偏差的本质,并验证公平投票方法在提升AI代表性和促进更公平的集体选择方面的有效性。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:收集真实世界的选举数据,包括不同类型的投票制度和选民偏好信息。2) LLM模拟:使用GPT-3、GPT-3.5和Llama2等LLM模拟选民的投票行为,生成大量的LLM投票角色。3) 偏差分析:分析LLM在不同投票场景下的偏差表现,例如一致性、代表性和公平性。4) 投票聚合:应用不同的投票聚合方法,包括传统的多数投票和公平的等额份额方法。5) 结果评估:评估不同投票聚合方法在减轻LLM偏差和提升集体选择公平性方面的效果。

关键创新:论文的关键创新在于:1) 首次在真实世界的选举数据上,大规模地模拟LLM投票行为,揭示了LLM在复杂投票场景下的偏差表现。2) 首次验证了公平的投票聚合方法(如等额份额)在减轻LLM偏差和提升AI代表性方面的有效性。3) 揭示了公平投票方法在降低弃权率和提升民主韧性方面的潜力。

关键设计:研究的关键设计包括:1) 精心设计的提示工程,以确保LLM能够理解和模拟选民的投票行为。2) 多样化的投票场景,包括不同类型的投票制度和选民偏好分布。3) 严格的评估指标,用于衡量LLM的偏差表现和投票结果的公平性。4) 对比实验,比较不同投票聚合方法在减轻LLM偏差方面的效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究表明,在复杂的偏好投票形式中,LLM表现出显著的不一致性。然而,通过应用等额份额等公平投票聚合方法,可以显著提升AI代表性,尤其是有助于那些可能弃权的选民。实验结果表明,公平投票方法能够减轻LLM偏差,恢复更具代表性的投票结果,从而提升民主韧性。

🎯 应用场景

该研究成果可应用于开发更公平、更具代表性的AI辅助决策系统,尤其是在民主治理、在线投票、群体决策等领域。通过减轻LLM偏差,可以提升AI在集体决策中的可信度和公正性,促进更广泛的公民参与和更有效的政策制定。未来,该研究可以扩展到其他类型的AI模型和决策场景,为构建更负责任、更可持续的AI社会提供理论基础和实践指导。

📄 摘要(原文)

Scaling up deliberative and voting participation is a longstanding endeavor -- a cornerstone for direct democracy and legitimate collective choice. Recent breakthroughs in generative artificial intelligence (AI) and large language models (LLMs) unravel new capabilities for AI personal assistants to overcome cognitive bandwidth limitations of humans, providing decision support or even direct representation of human voters at large scale. However, the quality of this representation and what underlying biases manifest when delegating collective decision-making to LLMs is an alarming and timely challenge to tackle. By rigorously emulating with high realism more than >50K LLM voting personas in 306 real-world voting elections, we disentangle the nature of different biases in LLMS (GPT 3, GPT 3.5, and Llama2). Complex preferential ballot formats exhibit significant inconsistencies compared to simpler majoritarian elections that show higher consistency. Strikingly though, by demonstrating for the first time in real-world a proportional representation of voters in direct democracy, we are also able to show that fair ballot aggregation methods, such as equal shares, prove to be a win-win: fairer voting outcomes for humans with fairer AI representation, especially for voters who are likely to abstain. This novel underlying relationship proves paramount for democratic resilience in progressives scenarios with low voters turnout and voter fatigue supported by AI representatives: abstained voters are mitigated by recovering highly representative voting outcomes that are fairer. These interdisciplinary insights provide remarkable foundations for science, policymakers, and citizens to develop safeguards and resilience for AI risks in democratic innovations.