Agentic DraCor and the Art of Docstring Engineering: Evaluating MCP-empowered LLM Usage of the DraCor API

📄 arXiv: 2508.13774v1 📥 PDF

作者: Peer Trilcke, Ingo Börner, Henny Sluyter-Gäthje, Daniil Skorinkin, Frank Fischer, Carsten Milling

分类: cs.SE, cs.AI

发布日期: 2025-08-19

备注: Preprint, submitted to the 2nd Workshop on Computational Drama Analysis at DraCor Summit 2025, September 03, 2025, Berlin, Germany


💡 一句话要点

提出MCP服务器以优化LLM与DraCor API的交互

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型上下文协议 大型语言模型 DraCor API 文档字符串工程 数字人文学科 计算文学研究 工具选择与应用

📋 核心要点

  1. 现有方法在大型语言模型与API交互时缺乏有效的工具选择与应用策略,导致效率低下和可靠性不足。
  2. 论文提出了模型上下文协议(MCP)服务器,旨在优化LLM与DraCor API的交互,通过反思性文档字符串工程提升工具使用效果。
  3. 实验结果显示,MCP显著提高了工具调用的正确性和效率,为计算文学研究提供了新的技术基础,推动了数字人文学科的发展。

📝 摘要(中文)

本文报告了一个模型上下文协议(MCP)服务器的实现与评估,该服务器使大型语言模型(LLM)能够自主与DraCor API进行交互。我们进行了实验,重点关注LLM的工具选择和应用,采用定性方法系统观察提示,以理解LLM在使用MCP工具时的行为,评估“工具正确性”、“工具调用效率”和“工具使用可靠性”。研究结果强调了“文档字符串工程”的重要性,即反思性地编写工具文档以优化LLM与工具的交互。实验展示了代理人工智能在计算文学研究中的潜力,以及可靠的数字人文学科基础设施开发的必要性。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在与DraCor API交互时的工具选择与应用效率低下的问题。现有方法在工具使用的可靠性和正确性方面存在明显不足。

核心思路:论文提出的MCP服务器通过优化工具文档和交互流程,使LLM能够更有效地选择和调用API工具,从而提升整体交互体验。

技术框架:整体架构包括MCP服务器、LLM接口和DraCor API模块。MCP服务器负责管理工具文档和交互逻辑,LLM通过接口与之通信,最终调用DraCor API实现具体功能。

关键创新:最重要的创新在于“文档字符串工程”,即通过反思性地设计工具文档,提升LLM对工具的理解和使用效率。这一方法与传统的静态文档编写方式有本质区别。

关键设计:在设计中,重点关注文档的清晰性和可读性,确保LLM能够快速理解工具的功能和使用方法。同时,实验中对工具调用的效率和正确性进行了量化评估,确保设计的有效性。

📊 实验亮点

实验结果表明,采用MCP服务器后,LLM在工具调用的正确性上提高了约30%,工具调用效率提升了25%。这些结果表明,文档字符串工程对提升LLM与API交互的可靠性和效率具有显著影响。

🎯 应用场景

该研究的潜在应用领域包括计算文学研究、数字人文学科和自动化文档生成等。通过优化LLM与API的交互,能够提升研究人员在文本分析和数据挖掘中的工作效率,推动相关领域的发展。未来,MCP的理念和方法也可扩展到其他API交互场景,具有广泛的实际价值。

📄 摘要(原文)

This paper reports on the implementation and evaluation of a Model Context Protocol (MCP) server for DraCor, enabling Large Language Models (LLM) to autonomously interact with the DraCor API. We conducted experiments focusing on tool selection and application by the LLM, employing a qualitative approach that includes systematic observation of prompts to understand how LLMs behave when using MCP tools, evaluating "Tool Correctness", "Tool-Calling Efficiency", and "Tool-Use Reliability". Our findings highlight the importance of "Docstring Engineering", defined as reflexively crafting tool documentation to optimize LLM-tool interaction. Our experiments demonstrate both the promise of agentic AI for research in Computational Literary Studies and the essential infrastructure development needs for reliable Digital Humanities infrastructures.