Cross-Model Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Across Three Large Language Models

📄 arXiv: 2604.19598v1 📥 PDF

作者: Kihyuk Lee

分类: cs.CL, cs.AI

发布日期: 2026-04-21

备注: 24 Pages, 2 Figures, 6 Tables and 2 Supplementary Materials


💡 一句话要点

评估大型语言模型在重复生成运动处方时的跨模型一致性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 运动处方 一致性评估 重复生成 语义相似性

📋 核心要点

  1. 现有研究缺乏对LLM生成运动处方时一致性的深入评估,尤其是在重复生成场景下,这限制了LLM在该领域的可靠应用。
  2. 本研究通过比较GPT-4.1、Claude Sonnet 4.6和Gemini 2.5 Flash在重复生成运动处方时的一致性,揭示了不同模型在相同设置下的不同行为。
  3. 实验表明,即使语义相似性高,不同模型的一致性来源也可能不同(如GPT-4.1的稳定语义与Gemini 2.5 Flash的文本复制),强调了重复生成评估的重要性。

📝 摘要(中文)

本研究比较了三种大型语言模型(LLM)GPT-4.1、Claude Sonnet 4.6和Gemini 2.5 Flash在temperature=0条件下重复生成运动处方输出的一致性。每个模型针对六种临床场景生成20次处方,总共360个输出,并从四个维度进行分析:语义相似性、输出可重复性、FITT分类和安全性表达。GPT-4.1的平均语义相似性最高(0.955),其次是Gemini 2.5 Flash(0.950)和Claude Sonnet 4.6(0.903),模型间存在显著差异(H = 458.41,p < .001)。重要的是,这些分数反映了根本不同的生成行为:GPT-4.1产生完全独特的输出(100%),但语义内容稳定,而Gemini 2.5 Flash表现出明显的输出重复(27.5%的独特输出),表明其高相似性分数源于文本复制而非一致的推理。相同的解码设置产生了根本不同的模型一致性特征,这是单次输出评估无法捕捉的。所有模型的安全性表达均达到上限,表明其作为区分指标的效用有限。结果表明,模型选择构成临床决策而非仅仅是技术决策,并且在重复生成条件下的输出行为应被视为基于LLM的运动处方系统可靠部署的核心标准。

🔬 方法详解

问题定义:论文旨在评估不同大型语言模型(LLM)在生成运动处方时的一致性。现有方法通常只关注单次生成结果的质量,忽略了LLM在重复生成相同任务时可能出现的不一致性问题。这种不一致性会影响LLM在临床应用中的可靠性,因为医生需要确保LLM能够给出稳定且可信的建议。

核心思路:论文的核心思路是通过重复生成实验来评估LLM的一致性。具体来说,针对相同的临床场景,让不同的LLM多次生成运动处方,然后分析这些处方在语义相似性、输出可重复性、FITT分类和安全性表达等方面的表现。通过这种方式,可以揭示不同LLM在一致性方面的差异,并为LLM在运动处方领域的应用提供指导。

技术框架:研究的技术框架主要包括以下几个步骤:1. 选择三个主流的LLM:GPT-4.1、Claude Sonnet 4.6和Gemini 2.5 Flash。2. 设计六个不同的临床场景,涵盖不同的患者情况和运动需求。3. 对于每个临床场景,让每个LLM生成20次运动处方,设置temperature=0以降低随机性。4. 使用多种指标评估生成结果的一致性,包括语义相似性(使用Sentence Transformers计算)、输出可重复性(计算唯一输出的比例)、FITT分类(分析频率、强度、时间、类型四个要素)和安全性表达(检查是否包含安全提示)。

关键创新:论文的关键创新在于提出了重复生成评估方法,用于评估LLM在运动处方领域的一致性。与传统的单次生成评估相比,重复生成评估能够更全面地反映LLM的稳定性和可靠性。此外,论文还揭示了不同LLM在一致性方面的差异,例如GPT-4.1倾向于生成语义相似但内容不同的处方,而Gemini 2.5 Flash则倾向于重复生成相同的处方。

关键设计:研究的关键设计包括:1. 使用temperature=0的设置,以降低LLM生成结果的随机性,从而更好地评估其一致性。2. 选择多种指标来评估生成结果的一致性,包括语义相似性、输出可重复性、FITT分类和安全性表达,从而全面地了解LLM的表现。3. 使用Sentence Transformers计算语义相似性,这是一种常用的文本相似度计算方法,能够有效地捕捉文本的语义信息。

📊 实验亮点

实验结果表明,GPT-4.1在语义相似性方面表现最佳(0.955),但其输出均为唯一(100%)。Gemini 2.5 Flash的语义相似性也较高(0.950),但重复率较高(仅27.5%的唯一输出),表明其高相似性源于文本复制。Claude Sonnet 4.6的语义相似性相对较低(0.903)。安全性表达在所有模型中均达到上限,区分度不高。

🎯 应用场景

该研究成果可应用于开发更可靠的AI运动处方系统,辅助医生为患者提供个性化的运动建议。通过评估不同LLM的一致性,可以选择更适合特定临床需求的模型,提高运动处方的质量和安全性。未来,该方法还可推广到其他医疗健康领域,评估AI在诊断、治疗等方面的可靠性。

📄 摘要(原文)

This study compared repeated generation consistency of exercise prescription outputs across three large language models (LLMs), specifically GPT-4.1, Claude Sonnet 4.6, and Gemini 2.5 Flash, under temperature=0 conditions. Each model generated prescriptions for six clinical scenarios 20 times, yielding 360 total outputs analyzed across four dimensions: semantic similarity, output reproducibility, FITT classification, and safety expression. Mean semantic similarity was highest for GPT-4.1 (0.955), followed by Gemini 2.5 Flash (0.950) and Claude Sonnet 4.6 (0.903), with significant inter-model differences confirmed (H = 458.41, p < .001). Critically, these scores reflected fundamentally different generative behaviors: GPT-4.1 produced entirely unique outputs (100%) with stable semantic content, while Gemini 2.5 Flash showed pronounced output repetition (27.5% unique outputs), indicating that its high similarity score derived from text duplication rather than consistent reasoning. Identical decoding settings thus yielded fundamentally different consistency profiles, a distinction that single-output evaluations cannot capture. Safety expression reached ceiling levels across all models, confirming its limited utility as a differentiating metric. These results indicate that model selection constitutes a clinical rather than merely technical decision, and that output behavior under repeated generation conditions should be treated as a core criterion for reliable deployment of LLM-based exercise prescription systems.