ViviDoc: Generating Interactive Documents through Human-Agent Collaboration

📄 arXiv: 2603.27991v1 📥 PDF

作者: Yinghao Tang, Yupeng Xie, Yingchaojie Feng, Tingfeng Lan, Jiale Lao, Yue Cheng, Wei Chen

分类: cs.HC, cs.AI

发布日期: 2026-03-30


💡 一句话要点

ViviDoc:提出一种人机协作框架,用于生成可交互文档,降低创作成本。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交互式文档生成 人机协作 大型语言模型 多Agent系统 文档规范

📋 核心要点

  1. 交互式文档创作成本高昂,需要领域知识和Web开发技能,直接应用LLM Agent难以控制输出。
  2. ViviDoc提出多Agent流水线,结合文档规范、风格调色板和聊天编辑,实现可控的交互式文档生成。
  3. ViviDoc在ViviBench基准测试中表现出色,用户研究表明系统易用且能生成满足用户需求的文档。

📝 摘要(中文)

交互式文档通过动态可视化、交互式动画和探索性界面,帮助读者理解复杂概念。然而,创建此类文档成本高昂,需要领域专业知识和Web开发技能。最近基于大型语言模型(LLM)的Agent可以自动生成内容,但直接将其应用于交互式文档生成通常会产生难以控制的输出。为了解决这个问题,我们提出了ViviDoc,据我们所知,这是第一个系统性地解决交互式文档生成的工作。ViviDoc引入了一个多Agent流水线(Planner、Styler、Executor、Evaluator)。为了使生成过程可控,我们提供了三个级别的人工控制:(1)带有SRTC交互规范(State、Render、Transition、Constraint)的文档规范(DocSpec)用于结构化规划,(2)用于自定义写作和交互风格的内容感知风格调色板,以及(3)用于迭代改进的基于聊天的编辑。我们还构建了ViviBench,一个包含来自11个领域的真实交互式文档的101个主题的基准,以及8种交互类型的分类和一个针对人工评分验证的四维自动评估框架(Pearson r > 0.84)。实验表明,ViviDoc在自动和人工评估中都实现了最高的内容丰富度和交互质量。一项12人用户研究证实,该系统易于使用,可以有效地控制生成过程,并生成满足用户的文档。

🔬 方法详解

问题定义:论文旨在解决交互式文档生成成本高、控制难的问题。现有方法依赖人工,效率低且成本高;直接使用LLM Agent生成,则难以保证文档的质量和可控性,无法满足用户特定需求。

核心思路:论文的核心思路是构建一个人机协作的交互式文档生成框架。通过引入多Agent流水线,并提供多层次的人工控制接口,实现自动化生成与人工干预的有效结合,从而降低创作成本,提高文档质量和可控性。

技术框架:ViviDoc包含以下主要模块: 1. Planner:根据DocSpec(包含SRTC交互规范)进行结构化规划。 2. Styler:利用内容感知的Style Palette定制写作和交互风格。 3. Executor:执行规划和风格设定,生成文档内容。 4. Evaluator:评估生成文档的质量,并提供反馈。 用户可以通过DocSpec、Style Palette和聊天编辑等方式进行干预,迭代优化文档生成结果。

关键创新:ViviDoc的关键创新在于: 1. 系统性地解决了交互式文档生成问题,是该领域的首个系统性研究。 2. 提出了多Agent流水线,将文档生成过程分解为多个可控的阶段。 3. 引入了SRTC交互规范,用于结构化规划交互行为。 4. 提供了多层次的人工控制接口,使用户能够有效地干预生成过程。

关键设计: 1. SRTC交互规范:定义了交互行为的状态(State)、渲染(Render)、转换(Transition)和约束(Constraint),用于指导交互行为的生成。 2. 内容感知Style Palette:根据文档内容,提供不同的写作和交互风格选项,用户可以根据需要进行选择。 3. ViviBench基准:包含101个主题,8种交互类型,以及四维自动评估框架,用于评估交互式文档生成模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ViviDoc在自动评估和人工评估中均取得了最高的内容丰富度和交互质量。在ViviBench基准测试中,ViviDoc显著优于其他基线方法。用户研究表明,ViviDoc易于使用,能够有效控制生成过程,并生成满足用户需求的文档,用户对系统的整体满意度较高。

🎯 应用场景

ViviDoc可应用于教育、科研、技术文档等领域,帮助用户快速创建高质量的交互式文档,提升信息传递效率和用户参与度。未来可进一步扩展到更多领域,例如产品演示、在线教程等,并结合虚拟现实/增强现实技术,提供更沉浸式的交互体验。

📄 摘要(原文)

Interactive documents help readers engage with complex ideas through dynamic visualization, interactive animations, and exploratory interfaces. However, creating such documents remains costly, as it requires both domain expertise and web development skills. Recent Large Language Model (LLM)-based agents can automate content creation, but directly applying them to interactive document generation often produces outputs that are difficult to control. To address this, we present ViviDoc, to the best of our knowledge the first work to systematically address interactive document generation. ViviDoc introduces a multi-agent pipeline (Planner, Styler, Executor, Evaluator). To make the generation process controllable, we provide three levels of human control: (1) the Document Specification (DocSpec) with SRTC Interaction Specifications (State, Render, Transition, Constraint) for structured planning, (2) a content-aware Style Palette for customizing writing and interaction styles, and (3) chat-based editing for iterative refinement. We also construct ViviBench, a benchmark of 101 topics derived from real-world interactive documents across 11 domains, along with a taxonomy of 8 interaction types and a 4-dimensional automated evaluation framework validated against human ratings (Pearson r > 0.84). Experiments show that ViviDoc achieves the highest content richness and interaction quality in both automated and human evaluation. A 12-person user study confirms that the system is easy to use, provides effective control over the generation process, and produces documents that satisfy users.