Cross-Model Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Across Three Large Language Models

作者: Kihyuk Lee

分类: cs.CL, cs.AI

发布日期: 2026-04-21

备注: 24 Pages, 2 Figures, 6 Tables and 2 Supplementary Materials

💡 一句话要点

评估大型语言模型在重复生成运动处方时的跨模型一致性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 运动处方 一致性评估 重复生成 语义相似性

📋 核心要点

现有研究缺乏对LLM生成运动处方时一致性的深入评估，尤其是在重复生成场景下，这限制了LLM在该领域的可靠应用。
本研究通过比较GPT-4.1、Claude Sonnet 4.6和Gemini 2.5 Flash在重复生成运动处方时的一致性，揭示了不同模型在相同设置下的不同行为。
实验表明，即使语义相似性高，不同模型的一致性来源也可能不同（如GPT-4.1的稳定语义与Gemini 2.5 Flash的文本复制），强调了重复生成评估的重要性。

📝 摘要（中文）

本研究比较了三种大型语言模型（LLM）GPT-4.1、Claude Sonnet 4.6和Gemini 2.5 Flash在temperature=0条件下重复生成运动处方输出的一致性。每个模型针对六种临床场景生成20次处方，总共360个输出，并从四个维度进行分析：语义相似性、输出可重复性、FITT分类和安全性表达。GPT-4.1的平均语义相似性最高（0.955），其次是Gemini 2.5 Flash（0.950）和Claude Sonnet 4.6（0.903），模型间存在显著差异（H = 458.41，p < .001）。重要的是，这些分数反映了根本不同的生成行为：GPT-4.1产生完全独特的输出（100%），但语义内容稳定，而Gemini 2.5 Flash表现出明显的输出重复（27.5%的独特输出），表明其高相似性分数源于文本复制而非一致的推理。相同的解码设置产生了根本不同的模型一致性特征，这是单次输出评估无法捕捉的。所有模型的安全性表达均达到上限，表明其作为区分指标的效用有限。结果表明，模型选择构成临床决策而非仅仅是技术决策，并且在重复生成条件下的输出行为应被视为基于LLM的运动处方系统可靠部署的核心标准。

🔬 方法详解

问题定义：论文旨在评估不同大型语言模型（LLM）在生成运动处方时的一致性。现有方法通常只关注单次生成结果的质量，忽略了LLM在重复生成相同任务时可能出现的不一致性问题。这种不一致性会影响LLM在临床应用中的可靠性，因为医生需要确保LLM能够给出稳定且可信的建议。

核心思路：论文的核心思路是通过重复生成实验来评估LLM的一致性。具体来说，针对相同的临床场景，让不同的LLM多次生成运动处方，然后分析这些处方在语义相似性、输出可重复性、FITT分类和安全性表达等方面的表现。通过这种方式，可以揭示不同LLM在一致性方面的差异，并为LLM在运动处方领域的应用提供指导。

技术框架：研究的技术框架主要包括以下几个步骤：1. 选择三个主流的LLM：GPT-4.1、Claude Sonnet 4.6和Gemini 2.5 Flash。2. 设计六个不同的临床场景，涵盖不同的患者情况和运动需求。3. 对于每个临床场景，让每个LLM生成20次运动处方，设置temperature=0以降低随机性。4. 使用多种指标评估生成结果的一致性，包括语义相似性（使用Sentence Transformers计算）、输出可重复性（计算唯一输出的比例）、FITT分类（分析频率、强度、时间、类型四个要素）和安全性表达（检查是否包含安全提示）。

关键创新：论文的关键创新在于提出了重复生成评估方法，用于评估LLM在运动处方领域的一致性。与传统的单次生成评估相比，重复生成评估能够更全面地反映LLM的稳定性和可靠性。此外，论文还揭示了不同LLM在一致性方面的差异，例如GPT-4.1倾向于生成语义相似但内容不同的处方，而Gemini 2.5 Flash则倾向于重复生成相同的处方。

关键设计：研究的关键设计包括：1. 使用temperature=0的设置，以降低LLM生成结果的随机性，从而更好地评估其一致性。2. 选择多种指标来评估生成结果的一致性，包括语义相似性、输出可重复性、FITT分类和安全性表达，从而全面地了解LLM的表现。3. 使用Sentence Transformers计算语义相似性，这是一种常用的文本相似度计算方法，能够有效地捕捉文本的语义信息。

📊 实验亮点

实验结果表明，GPT-4.1在语义相似性方面表现最佳（0.955），但其输出均为唯一（100%）。Gemini 2.5 Flash的语义相似性也较高（0.950），但重复率较高（仅27.5%的唯一输出），表明其高相似性源于文本复制。Claude Sonnet 4.6的语义相似性相对较低（0.903）。安全性表达在所有模型中均达到上限，区分度不高。

🎯 应用场景

该研究成果可应用于开发更可靠的AI运动处方系统，辅助医生为患者提供个性化的运动建议。通过评估不同LLM的一致性，可以选择更适合特定临床需求的模型，提高运动处方的质量和安全性。未来，该方法还可推广到其他医疗健康领域，评估AI在诊断、治疗等方面的可靠性。

📄 摘要（原文）

This study compared repeated generation consistency of exercise prescription outputs across three large language models (LLMs), specifically GPT-4.1, Claude Sonnet 4.6, and Gemini 2.5 Flash, under temperature=0 conditions. Each model generated prescriptions for six clinical scenarios 20 times, yielding 360 total outputs analyzed across four dimensions: semantic similarity, output reproducibility, FITT classification, and safety expression. Mean semantic similarity was highest for GPT-4.1 (0.955), followed by Gemini 2.5 Flash (0.950) and Claude Sonnet 4.6 (0.903), with significant inter-model differences confirmed (H = 458.41, p < .001). Critically, these scores reflected fundamentally different generative behaviors: GPT-4.1 produced entirely unique outputs (100%) with stable semantic content, while Gemini 2.5 Flash showed pronounced output repetition (27.5% unique outputs), indicating that its high similarity score derived from text duplication rather than consistent reasoning. Identical decoding settings thus yielded fundamentally different consistency profiles, a distinction that single-output evaluations cannot capture. Safety expression reached ceiling levels across all models, confirming its limited utility as a differentiating metric. These results indicate that model selection constitutes a clinical rather than merely technical decision, and that output behavior under repeated generation conditions should be treated as a core criterion for reliable deployment of LLM-based exercise prescription systems.

Cross-Model Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Across Three Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理