CyberJurors: A Multi-Agent Simulation Task for E-Commerce Disputes Verdict

作者: Yanhui Sun, Wu Liu, Haifeng Ming, Xinru Wang, Hantao Yao, Yongdong Zhang

分类: cs.AI, cs.SI

发布日期: 2026-05-27

备注: ICML 2026

🔗 代码/项目: GITHUB | HUGGINGFACE

💡 一句话要点

提出CyberJurors多智能体框架，解决电商纠纷判决任务，模拟众裁陪审团决策。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 电商纠纷判决 多智能体系统 链式思考 陪审团模拟 多模态学习

📋 核心要点

现有方法难以处理电商纠纷判决中证据冗余、多轮交互和平台规则灵活性的挑战。
CyberJurors框架通过个体链式思考和集体共识投票，模拟陪审团的推理和决策过程。
实验表明，CyberJurors在VerdictBench基准上优于现有模型，并更贴近真实陪审团的投票模式。

📝 摘要（中文）

电子商务平台开始招募众包陪审员来裁决大量的交易纠纷。与正式的法律判决不同，电子商务纠纷判决需要从冗余的、多轮的、多模态的证据中提取关键线索，并在灵活的平台特定规则下做出决策。这些特性使得现有方法不足以应对这种情况。为了弥合这一差距，我们引入了一项开创性的任务，即电子商务纠纷判决（EDV），并提出了VerdictBench，这是一个包含6000个真实案例的多模态基准，旨在反映众包陪审团的决策。在此基础上，我们提出了CyberJurors，一个多智能体框架，以阐明纠纷逻辑并规范判决过程。在个体层面，个体判决链式思考将EDV任务分解为四个结构化的推理阶段，从而实现细粒度的线索感知，并阐明关键线索与纠纷焦点之间的因果逻辑。在集体层面，陪审团共识判决模拟陪审员之间的多轮讨论和投票，同时纳入判决先例，以减轻对任何一方当事人的认知偏差。在VerdictBench上的实验表明，CyberJurors优于最先进的LLM、MLLM和法院模拟器，同时与真实陪审团投票模式实现了更强的对齐。代码和数据集可在https://github.com/YanhuiS/CyberJurors和https://huggingface.co/datasets/piggi/VerdictBench获得。

🔬 方法详解

问题定义：电子商务平台面临海量交易纠纷，需要高效且公正的判决机制。现有方法，如传统法律判决模型或大型语言模型，难以有效处理电商纠纷的特殊性，包括证据的多模态、多轮次和平台规则的复杂性。这些方法缺乏对纠纷逻辑的深入理解和对陪审团决策过程的模拟，导致判决结果与真实陪审团存在偏差。

核心思路：CyberJurors的核心思路是构建一个多智能体系统，模拟真实陪审团的决策过程。该系统将每个陪审员视为一个智能体，通过个体推理和集体讨论，逐步达成共识判决。个体推理阶段采用链式思考（Chain-of-Thought）方法，分解复杂问题，明确因果关系。集体讨论阶段模拟陪审员之间的多轮投票和辩论，并引入判决先例，以减少认知偏差，提高判决的公平性和一致性。

技术框架：CyberJurors框架包含两个主要层面：个体判决和陪审团共识。个体判决阶段，每个智能体通过个体判决链式思考（Individual Verdict Chain-of-Thought）将EDV任务分解为四个阶段：证据收集、线索提取、逻辑推理和初步判决。陪审团共识阶段，所有智能体进行多轮讨论和投票，通过陪审团共识判决（Jury Consensus Verdict）机制，最终达成一致判决。该机制还考虑了历史判决先例，以减少个体偏差。

关键创新：CyberJurors的关键创新在于其多智能体架构和对陪审团决策过程的精细模拟。与传统的单模型方法不同，CyberJurors能够更好地捕捉纠纷的复杂性和陪审员之间的互动。个体判决链式思考方法能够有效分解复杂问题，提高推理的透明度和可解释性。陪审团共识判决机制能够模拟真实陪审团的讨论和投票过程，提高判决的公平性和一致性。

关键设计：个体判决链式思考的四个阶段包括：(1) 证据收集：从多模态数据中提取相关信息；(2) 线索提取：识别关键证据和争议焦点；(3) 逻辑推理：分析证据之间的因果关系，构建纠纷逻辑；(4) 初步判决：基于推理结果，给出初步判决意见。陪审团共识判决采用多轮投票机制，每轮投票后，智能体可以根据其他智能体的意见调整自己的判决。判决先例通过相似度匹配引入，引导智能体做出更符合平台规则和历史判决的决策。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CyberJurors在VerdictBench基准上显著优于现有模型，包括大型语言模型（LLM）、多模态大型语言模型（MLLM）和法院模拟器。CyberJurors不仅在判决准确率上有所提升，而且与真实陪审团的投票模式更加一致，表明其能够更好地模拟人类的决策过程。

🎯 应用场景

CyberJurors可应用于电商平台纠纷解决、在线仲裁、法律咨询等领域。通过模拟陪审团决策过程，提高判决效率和公平性，降低人工成本。该研究还可推广到其他需要群体决策的场景，如医疗诊断、金融风险评估等，具有广阔的应用前景。

📄 摘要（原文）

E-commerce platforms have begun recruiting crowdsourced jurors to adjudicate massive volumes of transaction disputes. Unlike formal legal judgment, E-commerce dispute verdicts require grounding pivotal clues from redundant, multi-round, multimodal evidence and making decisions under flexible platform-specific conventions. These characteristics render existing methods insufficient for this scenario. To bridge this gap, we introduce a pioneering task, E-commerce Dispute Verdicts (EDV), and present VerdictBench, a multimodal benchmark comprising 6,000 real-world cases designed to reflect crowdsourced jury decisions. Building upon this, we propose CyberJurors, a multi-agent framework to clarify the dispute logic and regulate the verdict process. At the individual level, Individual Verdict Chain-of-Thought decomposes the EDV task into four structured reasoning stages, enabling fine-grained clue perception and clarifying causal logic between pivotal clues and the dispute focus. At the collective level, Jury Consensus Verdict simulates multi-round discussion and voting among jurors, while incorporating verdict precedents to mitigate cognitive biases toward either disputant. Experiments on VerdictBench show that CyberJurors outperforms state-of-the-art LLMs, MLLMs, and court simulators, while achieving stronger alignment with real-world jury voting patterns. Code and dataset are available at https://github.com/YanhuiS/CyberJurors and https://huggingface.co/datasets/piggi/VerdictBench.

CyberJurors: A Multi-Agent Simulation Task for E-Commerce Disputes Verdict

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理