Scaling Human-AI Coding Collaboration Requires a Governable Consensus Layer

📄 arXiv: 2604.17883v1 📥 PDF

作者: Tianfu Wang, Zhezheng Hao, Yin Wu, Wei Wu, Qiang Lin, Hande Dong, Nicholas Jing Yuan, Hui Xiong

分类: cs.SE, cs.HC, cs.LG

发布日期: 2026-04-20


💡 一句话要点

提出Agentic Consensus,通过可治理的共识层提升人机协同编程的可控性与可审计性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人机协作 AI辅助编程 共识层 知识图谱 软件工程

📋 核心要点

  1. 现有AI辅助编程缺乏结构化记录,导致代码可维护性差,难以追溯变更和调试。
  2. Agentic Consensus提出用类型化属性图构建可操作的世界模型作为共识层,取代代码成为主要工程产物。
  3. 通过同步算子连接共识层和可执行代码,并设计基准任务族评估共识工作流的人工干预程度。

📝 摘要(中文)

Vibe coding能够快速生成正确的、可执行的代码,但缺乏结构承诺、依赖关系或证据的记录。审查者无法确定所做的假设、变更的内容或回归的原因。这并非生成失败,而是控制失败:AI辅助开发的主要产物(代码加聊天记录)执行了维度坍塌,将复杂的系统拓扑结构扁平化为低维文本,使得系统在变更下变得不透明且脆弱。我们提出了Agentic Consensus:一种范式,其中共识层C(一个可操作的世界模型,表示为类型化的属性图)取代代码成为工程的主要产物。可执行的产物从C派生,并通过同步算子Phi(实现)和Psi(重水合)保持对应关系。证据直接链接到C中的结构声明,使得每个承诺都可审计,并将规范不足明确为可测量的共识熵,而不是无声的猜测。评估必须超越代码正确性,转向对齐保真度、共识熵和干预距离。我们提出了基准任务族,旨在衡量基于共识的工作流程是否比基于聊天的基线减少人工干预。

🔬 方法详解

问题定义:当前AI辅助编程模式,特别是基于聊天交互的Vibe coding,虽然能快速生成代码,但缺乏对代码结构、依赖关系和设计决策的明确记录。这种“维度坍塌”使得代码审查、调试和维护变得困难,系统容易因变更而崩溃。现有的代码审查方式难以确定代码背后的假设、变更原因以及潜在的回归风险。

核心思路:Agentic Consensus的核心思想是将代码开发过程中的知识和决策显式地表示为一个可操作的“共识层”,该共识层是一个类型化的属性图,充当系统设计的蓝图。通过将代码生成过程与共识层解耦,并建立两者之间的同步机制,实现代码的可追溯性和可维护性。这种设计旨在解决现有AI辅助编程中信息丢失和控制不足的问题。

技术框架:Agentic Consensus框架包含以下几个主要组成部分:1) 共识层(C):一个类型化的属性图,用于表示系统结构、依赖关系和设计决策。2) 实现算子(Φ):将共识层中的信息转化为可执行代码。3) 重水合算子(Ψ):将代码中的变更同步回共识层。4) 证据链接:将代码变更的证据(例如,测试结果、审查意见)直接链接到共识层中的相应结构声明。整个流程是,开发者首先在共识层中定义系统结构,然后通过实现算子生成代码,代码变更后通过重水合算子同步回共识层,并记录相关证据。

关键创新:Agentic Consensus的关键创新在于将共识层作为AI辅助开发的主要产物,取代了传统的代码加聊天记录模式。这种方法将隐式的知识和决策显式化,提高了代码的可理解性和可维护性。此外,通过引入共识熵的概念,可以量化系统规范的完整性,并指导开发者进行更全面的设计。

关键设计:共识层使用类型化的属性图来表示系统结构,其中节点表示实体(例如,类、函数),边表示关系(例如,继承、调用)。实现算子和重水合算子的具体实现取决于目标编程语言和开发环境。论文还提出了新的评估指标,包括对齐保真度、共识熵和干预距离,用于衡量Agentic Consensus的有效性。基准任务族的设计旨在模拟实际开发场景,并评估共识工作流在减少人工干预方面的效果。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文提出了新的评估指标,包括对齐保真度、共识熵和干预距离,用于衡量Agentic Consensus的有效性。虽然具体实验数据未在摘要中体现,但论文强调了基准任务族的设计旨在模拟实际开发场景,并评估共识工作流在减少人工干预方面的效果,表明该方法在提升人机协同编程效率方面具有潜力。

🎯 应用场景

Agentic Consensus可应用于各种软件开发场景,尤其适用于大型、复杂的系统。它可以提高代码质量、降低维护成本,并促进团队协作。该方法还有潜力应用于其他知识密集型领域,例如知识图谱构建、智能决策支持等,提升人机协作效率和系统可解释性。

📄 摘要(原文)

Vibe coding produces correct, executable code at speed, but leaves no record of the structural commitments, dependencies, or evidence behind it. Reviewers cannot determine what invariants were assumed, what changed, or why a regression occurred. This is not a generation failure but a control failure: the dominant artifact of AI-assisted development (code plus chat history) performs dimension collapse, flattening complex system topology into low-dimensional text and making systems opaque and fragile under change. We propose Agentic Consensus: a paradigm in which the consensus layer C, an operable world model represented as a typed property graph, replaces code as the primary artifact of engineering. Executable artifacts are derived from C and kept in correspondence via synchronization operators Phi (realize) and Psi (rehydrate). Evidence links directly to structural claims in C, making every commitment auditable and under-specification explicit as measurable consensus entropy rather than a silent guess. Evaluation must move beyond code correctness toward alignment fidelity, consensus entropy, and intervention distance. We propose benchmark task families designed to measure whether consensus-based workflows reduce human intervention compared to chat-driven baselines.