ParlAI Vote: A Web Platform for Analyzing Gender and Political Bias in Large Language Models

📄 arXiv: 2509.16264v3 📥 PDF

作者: Wenjie Lin, Hange Liu, Yingying Zhuang, Xutao Mao, Jingwei Shi, Xudong Han, Tianyu Shi, Jinrui Yang

分类: cs.CL, cs.AI, cs.HC, cs.LG

发布日期: 2025-09-18 (更新: 2025-12-02)

备注: online demo: https://euro-parl-vote-demo.vercel.app/; Video: https://www.youtube.com/@Jinrui-sf2jg


💡 一句话要点

提出ParlAI Vote平台以分析大型语言模型中的性别与政治偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 性别偏见 政治偏见 数据可视化 交互式平台 投票预测 欧洲议会 模型分析

📋 核心要点

  1. 现有方法在分析大型语言模型的性别和政治偏见时缺乏系统性和可视化工具,导致研究结果难以重现和理解。
  2. ParlAI Vote平台通过整合辩论、演讲和投票结果,提供了一个交互式界面,便于用户进行偏见分析和投票预测测试。
  3. 该平台展示了当前大型语言模型在性别分类和投票预测中的系统性性能偏差,促进了对模型行为的审计和理解。

📝 摘要(中文)

我们提出了ParlAI Vote,这是一个互动式网络平台,用于探索欧洲议会的辩论和投票,并测试大型语言模型在投票预测和偏见分析方面的表现。该系统连接了辩论主题、演讲和投票结果,并包含丰富的人口统计数据,如性别、年龄、国家和政治团体。用户可以浏览辩论、检查相关演讲、比较真实投票结果与前沿大型语言模型的预测,并查看按人口统计组划分的错误分析。ParlAI Vote通过可视化EuroParlVote基准及其核心任务,突显了当前大型语言模型的系统性性能偏差。该平台将数据、模型和可视化分析统一在一个界面中,降低了重现研究结果、审计行为和运行反事实场景的门槛,同时展示了模型推理,帮助用户理解错误发生的原因及模型依赖的线索。该平台支持研究、教育和公众参与立法决策,同时清晰展示了当前大型语言模型在政治分析中的优势和局限性。

🔬 方法详解

问题定义:本论文旨在解决现有大型语言模型在性别和政治偏见分析中的不足,尤其是缺乏有效的可视化和交互工具,使得研究结果难以验证和理解。

核心思路:ParlAI Vote平台通过整合欧洲议会的辩论、演讲和投票结果,提供一个用户友好的界面,帮助用户进行投票预测和偏见分析,从而提升对模型行为的理解。

技术框架:该平台的整体架构包括数据收集模块、模型预测模块和可视化分析模块。用户可以通过界面浏览辩论内容,查看演讲与投票结果的关联,并进行模型预测的比较。

关键创新:最重要的技术创新在于将数据、模型和可视化分析统一在一个平台上,降低了研究的门槛,并提供了对模型推理的深入理解。与现有方法相比,ParlAI Vote在用户交互和数据整合方面具有显著优势。

关键设计:平台设计中采用了丰富的人口统计数据,支持按性别、年龄和政治团体进行分析,且在模型预测中引入了错误分析功能,以帮助用户识别模型的偏见来源。具体的参数设置和损失函数设计尚未公开。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,ParlAI Vote平台能够有效揭示当前大型语言模型在性别分类和投票预测中的系统性偏差,具体性能数据和提升幅度尚未详细披露,但平台的设计显著降低了研究的复杂性和门槛。

🎯 应用场景

ParlAI Vote平台的潜在应用领域包括学术研究、教育和公众参与立法决策。通过提供可视化的分析工具,该平台能够帮助研究人员和政策制定者更好地理解大型语言模型在政治分析中的表现,从而促进更公平和透明的决策过程。

📄 摘要(原文)

We present ParlAI Vote, an interactive web platform for exploring European Parliament debates and votes, and for testing LLMs on vote prediction and bias analysis. This web system connects debate topics, speeches, and roll-call outcomes, and includes rich demographic data such as gender, age, country, and political group. Users can browse debates, inspect linked speeches, compare real voting outcomes with predictions from frontier LLMs, and view error breakdowns by demographic group. Visualizing the EuroParlVote benchmark and its core tasks of gender classification and vote prediction, ParlAI Vote highlights systematic performance bias in state-of-the-art LLMs. It unifies data, models, and visual analytics in a single interface, lowering the barrier for reproducing findings, auditing behavior, and running counterfactual scenarios. This web platform also shows model reasoning, helping users see why errors occur and what cues the models rely on. It supports research, education, and public engagement with legislative decision-making, while making clear both the strengths and the limitations of current LLMs in political analysis.