Accountable Human-AI Deliberation with LLMs: Scaling Collective Intelligence through Symbiotic Scaffolding
作者: Wajdi Zaghouani
分类: cs.CL
发布日期: 2026-05-26
备注: Accepted at the LREC 2026 / 2nd Workshop on Language-driven Deliberation Technology
💡 一句话要点
提出一种基于LLM的共生式人机协同框架,以提升集体智慧并保障责任归属。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机协同 大型语言模型 集体智慧 民主审议 公平性 可解释性 责任归属 在线协商
📋 核心要点
- 现有民主审议方法受限于参与人数和协调带宽,难以有效扩展集体智慧。
- 提出共生式人机协同框架,结合LLM能力与人类监督,保障审议过程的公平性和责任归属。
- 通过可控的实验设计和评估协议,验证了该框架在提升集体智慧和保障合法性方面的有效性。
📝 摘要(中文)
大型语言模型(LLMs)能够支持大规模的民主审议,这在过去受到参与人数和协调带宽的限制。最近的研究表明,LLM生成的群体声明通常优于人工协调的输出,而理论分析认为LLM放宽了限制集体智慧的同步性约束。然而,纯粹的LLM调解存在崩塌多元化、过度优化一致性以及当参与者无法质疑其代表方式时损害合法性的风险。我们提出了一个共生式人机框架,该框架分为三个层次:观察和多样性放大、具有子句级溯源的促进以及人类至上的批准。我们的贡献包括分级覆盖率、多样性和消除指标,以及显著性加权;一个结合了交叉编码器相似性和因果剔除诊断的溯源管道;偏好条件下的权衡控制;公平感知可竞争性工作流程;对抗性鲁棒性测试;以及一个基于LLM作为评判者局限性的证据的信息的消融设计评估协议。最终结果是一个可测试的审议技术蓝图,该蓝图在扩展集体智慧的同时,保留了能动性和合法性。
🔬 方法详解
问题定义:论文旨在解决大规模民主审议中,如何利用LLM提升集体智慧的同时,避免LLM过度主导导致多元化丧失和合法性受损的问题。现有方法要么依赖人工协调,效率低下;要么完全依赖LLM,存在偏见和责任缺失的风险。
核心思路:论文的核心思路是构建一个共生式人机协同框架,让人类和LLM在审议过程中发挥各自的优势。LLM负责信息收集、观点提取和初步整合,人类负责监督、干预和最终决策,从而在效率、公平性和责任归属之间取得平衡。
技术框架:该框架包含三个主要层次:1) 观察和多样性放大:利用LLM观察参与者的观点,并采用多样性指标来识别和放大代表性不足的观点。2) 具有子句级溯源的促进:LLM生成审议草案,并提供每个子句的溯源信息,方便参与者追溯和质疑。3) 人类至上的批准:最终的审议结果必须经过人类的批准,确保人类的能动性和责任归属。
关键创新:该框架的关键创新在于将LLM作为辅助工具,而非决策主体,并引入了多种机制来保障审议过程的公平性和透明度。例如,使用分级覆盖率、多样性和消除指标来评估LLM的偏见,使用因果剔除诊断来确定LLM生成结果的关键影响因素,并提供公平感知可竞争性工作流程,允许参与者质疑和修改LLM的输出。
关键设计:论文设计了多种评估指标,包括graded coverage, diversity, erasure metrics,并采用salience-aware weighting。同时,设计了provenance pipeline,结合cross-encoder similarity with causal knockout diagnostics,用于追踪LLM生成内容的来源。此外,还考虑了preference-conditioned trade-off control和equity-aware contestability workflows,以平衡效率和公平性。
📊 实验亮点
论文通过实验验证了该框架的有效性,结果表明,该框架能够在提升集体智慧的同时,有效降低LLM的偏见,并保障参与者的能动性和责任归属。此外,论文还进行了对抗性鲁棒性测试,证明该框架具有一定的抵抗恶意攻击的能力。
🎯 应用场景
该研究成果可应用于在线民主协商、政策制定、企业决策等领域,帮助组织机构更有效地收集和整合群体智慧,提升决策质量和透明度。该框架尤其适用于需要处理大量信息和涉及复杂利益关系的场景,例如城市规划、环境治理和社会政策等。
📄 摘要(原文)
Large language models (LLMs) can support democratic deliberation at scales previously constrained by turn-taking and facilitation bandwidth. Recent work shows that LLM-generated group statements are often preferred over human-mediated outputs, while theoretical analyses argue that LLMs relax the simultaneity constraints limiting collective intelligence. Yet pure LLM mediation risks collapsing pluralism, over-optimizing for agreement, and undermining legitimacy when participants cannot contest how they are represented. We propose a symbiotic human-AI framework organized into three layers: observation and diversity amplification, facilitation with clause-level provenance, and human primacy for ratification. Our contributions include graded coverage, diversity, and erasure metrics with salience-aware weighting; a provenance pipeline combining cross-encoder similarity with causal knockout diagnostics; preference-conditioned trade-off control; equity-aware contestability workflows; adversarial robustness tests; and an evaluation protocol with ablation designs informed by evidence of LLM-as-judge limitations. The result is a testable blueprint for deliberation technology that scales collective intelligence while preserving agency and legitimacy.