CyberJurors: A Multi-Agent Simulation Task for E-Commerce Disputes Verdict

📄 arXiv: 2605.28369v1 📥 PDF

作者: Yanhui Sun, Wu Liu, Haifeng Ming, Xinru Wang, Hantao Yao, Yongdong Zhang

分类: cs.AI, cs.SI

发布日期: 2026-05-27

备注: ICML 2026

🔗 代码/项目: GITHUB | HUGGINGFACE


💡 一句话要点

提出CyberJurors多智能体框架,解决电商纠纷判决任务,模拟众裁陪审团决策。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电商纠纷判决 多智能体系统 链式思考 陪审团模拟 多模态学习

📋 核心要点

  1. 现有方法难以处理电商纠纷判决中证据冗余、多轮交互和平台规则灵活性的挑战。
  2. CyberJurors框架通过个体链式思考和集体共识投票,模拟陪审团的推理和决策过程。
  3. 实验表明,CyberJurors在VerdictBench基准上优于现有模型,并更贴近真实陪审团的投票模式。

📝 摘要(中文)

电子商务平台开始招募众包陪审员来裁决大量的交易纠纷。与正式的法律判决不同,电子商务纠纷判决需要从冗余的、多轮的、多模态的证据中提取关键线索,并在灵活的平台特定规则下做出决策。这些特性使得现有方法不足以应对这种情况。为了弥合这一差距,我们引入了一项开创性的任务,即电子商务纠纷判决(EDV),并提出了VerdictBench,这是一个包含6000个真实案例的多模态基准,旨在反映众包陪审团的决策。在此基础上,我们提出了CyberJurors,一个多智能体框架,以阐明纠纷逻辑并规范判决过程。在个体层面,个体判决链式思考将EDV任务分解为四个结构化的推理阶段,从而实现细粒度的线索感知,并阐明关键线索与纠纷焦点之间的因果逻辑。在集体层面,陪审团共识判决模拟陪审员之间的多轮讨论和投票,同时纳入判决先例,以减轻对任何一方当事人的认知偏差。在VerdictBench上的实验表明,CyberJurors优于最先进的LLM、MLLM和法院模拟器,同时与真实陪审团投票模式实现了更强的对齐。代码和数据集可在https://github.com/YanhuiS/CyberJurors和https://huggingface.co/datasets/piggi/VerdictBench获得。

🔬 方法详解

问题定义:电子商务平台面临海量交易纠纷,需要高效且公正的判决机制。现有方法,如传统法律判决模型或大型语言模型,难以有效处理电商纠纷的特殊性,包括证据的多模态、多轮次和平台规则的复杂性。这些方法缺乏对纠纷逻辑的深入理解和对陪审团决策过程的模拟,导致判决结果与真实陪审团存在偏差。

核心思路:CyberJurors的核心思路是构建一个多智能体系统,模拟真实陪审团的决策过程。该系统将每个陪审员视为一个智能体,通过个体推理和集体讨论,逐步达成共识判决。个体推理阶段采用链式思考(Chain-of-Thought)方法,分解复杂问题,明确因果关系。集体讨论阶段模拟陪审员之间的多轮投票和辩论,并引入判决先例,以减少认知偏差,提高判决的公平性和一致性。

技术框架:CyberJurors框架包含两个主要层面:个体判决和陪审团共识。个体判决阶段,每个智能体通过个体判决链式思考(Individual Verdict Chain-of-Thought)将EDV任务分解为四个阶段:证据收集、线索提取、逻辑推理和初步判决。陪审团共识阶段,所有智能体进行多轮讨论和投票,通过陪审团共识判决(Jury Consensus Verdict)机制,最终达成一致判决。该机制还考虑了历史判决先例,以减少个体偏差。

关键创新:CyberJurors的关键创新在于其多智能体架构和对陪审团决策过程的精细模拟。与传统的单模型方法不同,CyberJurors能够更好地捕捉纠纷的复杂性和陪审员之间的互动。个体判决链式思考方法能够有效分解复杂问题,提高推理的透明度和可解释性。陪审团共识判决机制能够模拟真实陪审团的讨论和投票过程,提高判决的公平性和一致性。

关键设计:个体判决链式思考的四个阶段包括:(1) 证据收集:从多模态数据中提取相关信息;(2) 线索提取:识别关键证据和争议焦点;(3) 逻辑推理:分析证据之间的因果关系,构建纠纷逻辑;(4) 初步判决:基于推理结果,给出初步判决意见。陪审团共识判决采用多轮投票机制,每轮投票后,智能体可以根据其他智能体的意见调整自己的判决。判决先例通过相似度匹配引入,引导智能体做出更符合平台规则和历史判决的决策。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CyberJurors在VerdictBench基准上显著优于现有模型,包括大型语言模型(LLM)、多模态大型语言模型(MLLM)和法院模拟器。CyberJurors不仅在判决准确率上有所提升,而且与真实陪审团的投票模式更加一致,表明其能够更好地模拟人类的决策过程。

🎯 应用场景

CyberJurors可应用于电商平台纠纷解决、在线仲裁、法律咨询等领域。通过模拟陪审团决策过程,提高判决效率和公平性,降低人工成本。该研究还可推广到其他需要群体决策的场景,如医疗诊断、金融风险评估等,具有广阔的应用前景。

📄 摘要(原文)

E-commerce platforms have begun recruiting crowdsourced jurors to adjudicate massive volumes of transaction disputes. Unlike formal legal judgment, E-commerce dispute verdicts require grounding pivotal clues from redundant, multi-round, multimodal evidence and making decisions under flexible platform-specific conventions. These characteristics render existing methods insufficient for this scenario. To bridge this gap, we introduce a pioneering task, E-commerce Dispute Verdicts (EDV), and present VerdictBench, a multimodal benchmark comprising 6,000 real-world cases designed to reflect crowdsourced jury decisions. Building upon this, we propose CyberJurors, a multi-agent framework to clarify the dispute logic and regulate the verdict process. At the individual level, Individual Verdict Chain-of-Thought decomposes the EDV task into four structured reasoning stages, enabling fine-grained clue perception and clarifying causal logic between pivotal clues and the dispute focus. At the collective level, Jury Consensus Verdict simulates multi-round discussion and voting among jurors, while incorporating verdict precedents to mitigate cognitive biases toward either disputant. Experiments on VerdictBench show that CyberJurors outperforms state-of-the-art LLMs, MLLMs, and court simulators, while achieving stronger alignment with real-world jury voting patterns. Code and dataset are available at https://github.com/YanhuiS/CyberJurors and https://huggingface.co/datasets/piggi/VerdictBench.