OrgForge: A Multi-Agent Simulation Framework for Verifiable Synthetic Corporate Corpora
作者: Jeffrey Flynt
分类: cs.CL, cs.AI, cs.IR
发布日期: 2026-03-16
💡 一句话要点
OrgForge:用于可验证合成公司语料库的多智能体仿真框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体仿真 合成数据生成 检索增强生成 组织行为建模 因果关系推理
📋 核心要点
- 现有RAG评估语料库缺乏可知的ground truth、时间结构和跨工件属性,且存在法律和数据偏差问题。
- OrgForge通过多智能体仿真框架,利用确定性引擎和受约束的LLM生成可验证、时间一致的合成公司语料库。
- OrgForge包含图动态子系统、因果链跟踪和电子邮件引擎,模拟组织行为,并生成多种类型的公司文档。
📝 摘要(中文)
评估检索增强生成(RAG)管道需要语料库,其中ground truth是可知的、具有时间结构的,并且具有真实世界数据集很少能干净提供的跨工件属性。现有的资源,如Enron语料库,带有法律上的模糊性、人口统计上的偏差,并且没有结构化的ground truth。纯粹由LLM生成的合成数据解决了法律问题,但引入了一个更微妙的问题:无法阻止生成模型产生在文档之间相互矛盾的事实。我们提出了OrgForge,一个开源的多智能体仿真框架,它强制执行严格的物理-认知边界:一个确定性的Python引擎维护一个SimEvent ground truth总线;大型语言模型只生成表面文本,并受到经过验证的提议的约束。一个actor-local时钟在所有工件类型中强制执行因果时间戳的正确性,消除了当每个文档独立采样时间戳时产生的时间线不一致性。我们形式化了三个图动态子系统——通过介数中心性的应力传播、时间边权重衰减和Dijkstra升级路由——它们独立于任何LLM来管理组织行为。运行一个可配置的N天模拟,OrgForge产生交错的Slack线程、JIRA工单、Confluence页面、Git pull请求和电子邮件,所有这些都可以追溯到一个共享的、不可变的事件日志。我们还描述了一个因果链跟踪子系统,该子系统为每个事件累积跨工件证据图,一个混合的倒数排名融合复发检测器,用于识别重复的失败类别,以及一个入站/出站电子邮件引擎,该引擎通过具有概率丢弃模拟的门控因果链来路由供应商警报、客户投诉和HR通信。OrgForge在MIT许可下可用。
🔬 方法详解
问题定义:现有检索增强生成(RAG)管道的评估依赖于真实世界语料库,但这些语料库通常缺乏清晰的ground truth、时间结构和跨文档一致性,同时还存在法律风险和数据偏差。纯LLM生成的数据虽然解决了法律问题,但容易产生幻觉,导致文档间信息不一致,难以验证。
核心思路:OrgForge的核心思路是构建一个多智能体仿真框架,通过强制执行严格的物理-认知边界来保证数据质量。确定性的Python引擎负责维护ground truth,而大型语言模型仅负责生成表面文本,并受到预先验证的提议的约束。这种设计确保了生成数据的可验证性和一致性。
技术框架:OrgForge的整体框架包含以下几个主要模块:1) SimEvent引擎:一个确定性的Python引擎,维护所有事件的ground truth。2) 智能体模型:模拟公司员工的行为,并生成各种类型的文档。3) 图动态子系统:包括应力传播、时间边权重衰减和Dijkstra升级路由,用于模拟组织行为。4) 因果链跟踪子系统:跟踪事件的因果关系,并生成跨工件证据图。5) 电子邮件引擎:模拟公司内外部的邮件通信。
关键创新:OrgForge的关键创新在于其严格的物理-认知边界。通过将ground truth的维护与文本生成分离,OrgForge能够生成可验证且时间一致的合成数据。此外,OrgForge还引入了图动态子系统来模拟组织行为,这使得生成的数据更具真实感。与现有方法相比,OrgForge能够生成具有结构化ground truth和跨工件依赖关系的合成数据,从而更有效地评估RAG管道。
关键设计:OrgForge的关键设计包括:1) Actor-local时钟:确保所有工件的时间戳正确性。2) 图动态子系统:使用介数中心性、时间边权重衰减和Dijkstra算法来模拟组织行为。3) 混合倒数排名融合复发检测器:用于识别重复的失败类别。4) 概率丢弃模拟:用于模拟电子邮件的丢失。
📊 实验亮点
OrgForge能够生成包含Slack线程、JIRA工单、Confluence页面、Git pull请求和电子邮件等多种类型的公司文档,所有这些文档都可以追溯到共享的、不可变的事件日志。通过因果链跟踪子系统,可以为每个事件累积跨工件证据图,从而更好地理解事件的因果关系。
🎯 应用场景
OrgForge可用于评估和改进检索增强生成(RAG)管道的性能。通过生成具有已知ground truth的合成数据,研究人员可以更准确地评估RAG系统的检索和生成能力。此外,OrgForge还可以用于研究组织行为和信息传播,并为企业提供更好的决策支持。
📄 摘要(原文)
Evaluating retrieval-augmented generation (RAG) pipelines requires corpora where ground truth is knowable, temporally structured, and cross-artifact properties that real-world datasets rarely provide cleanly. Existing resources such as the Enron corpus carry legal ambiguity, demographic skew, and no structured ground truth. Purely LLM-generated synthetic data solves the legal problem but introduces a subtler one: the generating model cannot be prevented from hallucinating facts that contradict themselves across documents.We present OrgForge, an open-source multi-agent simulation framework that enforces a strict physics-cognition boundary: a deterministic Python engine maintains a SimEvent ground truth bus; large language models generate only surface prose, constrained by validated proposals. An actor-local clock enforces causal timestamp correctness across all artifact types, eliminating the class of timeline inconsistencies that arise when timestamps are sampled independently per document. We formalize three graph-dynamic subsystems stress propagation via betweenness centrality, temporal edge-weight decay, and Dijkstra escalation routing that govern organizational behavior independently of any LLM. Running a configurable N-day simulation, OrgForge produces interleaved Slack threads, JIRA tickets, Confluence pages, Git pull requests, and emails, all traceable to a shared, immutable event log. We additionally describe a causal chain tracking subsystem that accumulates cross-artifact evidence graphs per incident, a hybrid reciprocal-rank-fusion recurrence detector for identifying repeated failure classes, and an inbound/outbound email engine that routes vendor alerts, customer complaints, and HR correspondence through gated causal chains with probabilistic drop simulation. OrgForge is available under the MIT license.