Evaluating the effectiveness of LLM-based interoperability

📄 arXiv: 2510.23893v1 📥 PDF

作者: Rodrigo Falcão, Stefan Schweitzer, Julien Siebert, Emily Calvet, Frank Elberzhager

分类: cs.SE, cs.AI

发布日期: 2025-10-27


💡 一句话要点

评估基于LLM的互操作性有效性,实现系统自主运行时互操作。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 互操作性 系统集成 自主运行 代码生成

📋 核心要点

  1. 现有系统互操作性面临动态异构环境的挑战,且开发互操作组件耗时费力。
  2. 利用LLM自主实现系统运行时互操作,无需人工干预,降低开发成本。
  3. 实验表明qwen2.5-coder:32b在农业互操作性用例中表现出色,尤其在单位转换场景。

📝 摘要(中文)

背景:系统间的互操作性挑战日益严峻,尤其是在动态和异构的系统中。除了技术层面,互操作性还涉及经济成本,因为构建互操作性组件需要耗费开发时间。目标:本文旨在分析基于大型语言模型(LLMs)的策略在实现系统自主、运行时互操作性方面的有效性,无需人工干预。方法:我们选择了13个开源LLM,并为农业互操作性用例构建了四个版本的数据集。我们使用两种不同的策略,对每个模型和每个数据集版本进行了三次运行。然后,我们比较了模型的有效性以及结果在多次运行中的一致性。结果:qwen2.5-coder:32b模型在四分之三的数据集版本中使用DIRECT策略(平均pass@1 >= 0.99)和CODEGEN策略(平均pass@1 >= 0.89)时效果最佳。在包含单位转换的第四个数据集版本中,所有使用DIRECT策略的模型都失败了,而使用CODEGEN策略的qwen2.5-coder:32b模型成功了,平均pass@1 = 0.75。结论:某些LLM可以使系统自主互操作。建议在不同领域进行进一步评估,并进一步研究可靠性策略。

🔬 方法详解

问题定义:论文旨在解决异构系统在运行时实现自主互操作的问题。现有方法通常需要人工干预,开发成本高昂,难以适应动态变化的环境。因此,如何利用LLM自动实现系统间的无缝协作是本文要解决的核心问题。

核心思路:论文的核心思路是利用LLM的强大代码生成和理解能力,让LLM能够理解不同系统之间的数据格式和协议,并自动生成必要的转换代码,从而实现系统间的互操作。这种方法旨在减少人工干预,提高互操作的效率和灵活性。

技术框架:整体流程包括:1)选择开源LLM;2)构建农业互操作性数据集,包含不同版本;3)使用DIRECT和CODEGEN两种策略,让LLM处理数据集;4)评估模型在不同策略和数据集上的性能,并分析结果的一致性。DIRECT策略可能直接让LLM进行转换,而CODEGEN策略可能让LLM生成代码来实现转换。

关键创新:关键创新在于探索了利用LLM实现系统自主互操作的可能性。与传统方法相比,这种方法无需人工编写大量的互操作代码,而是依赖LLM的自动代码生成能力。此外,论文还比较了不同LLM在互操作任务上的性能,并分析了不同策略的优缺点。

关键设计:论文选择了13个开源LLM,并构建了四个版本的农业互操作性数据集,这些数据集可能包含不同类型的数据格式和协议。实验中使用了两种策略:DIRECT和CODEGEN。评估指标是pass@1,即模型一次性生成正确代码的概率。具体的参数设置和网络结构取决于所使用的LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,qwen2.5-coder:32b模型在农业互操作性用例中表现最佳。在三个数据集版本中,使用DIRECT策略的平均pass@1 >= 0.99,使用CODEGEN策略的平均pass@1 >= 0.89。在包含单位转换的数据集版本中,使用CODEGEN策略的qwen2.5-coder:32b模型平均pass@1 = 0.75,显著优于其他模型。

🎯 应用场景

该研究成果可应用于智能农业、物联网、工业自动化等领域,实现不同系统间的无缝数据交换和协同工作。通过减少人工干预,降低互操作成本,提高系统集成效率,加速数字化转型。未来可扩展到更广泛的领域,如智慧城市、智能交通等。

📄 摘要(原文)

Background: Systems of systems are becoming increasingly dynamic and heterogeneous, and this adds pressure on the long-standing challenge of interoperability. Besides its technical aspect, interoperability has also an economic side, as development time efforts are required to build the interoperability artifacts. Objectives: With the recent advances in the field of large language models (LLMs), we aim at analyzing the effectiveness of LLM-based strategies to make systems interoperate autonomously, at runtime, without human intervention. Method: We selected 13 open source LLMs and curated four versions of a dataset in the agricultural interoperability use case. We performed three runs of each model with each version of the dataset, using two different strategies. Then we compared the effectiveness of the models and the consistency of their results across multiple runs. Results: qwen2.5-coder:32b was the most effective model using both strategies DIRECT (average pass@1 >= 0.99) and CODEGEN (average pass@1 >= 0.89) in three out of four dataset versions. In the fourth dataset version, which included an unit conversion, all models using the strategy DIRECT failed, whereas using CODEGEN qwen2.5-coder:32b succeeded with an average pass@1 = 0.75. Conclusion: Some LLMs can make systems interoperate autonomously. Further evaluation in different domains is recommended, and further research on reliability strategies should be conducted.