Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Using a Large Language Model

作者: Kihyuk Lee

分类: cs.AI, q-bio.OT

发布日期: 2026-04-13

备注: 15 pages, 5 tables, 3 figures

💡 一句话要点

评估LLM生成运动处方的一致性：一项基于Gemini 2.5 Flash的重复生成研究

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 运动处方 一致性评估 重复生成 Gemini 2.5 Flash

📋 核心要点

现有方法在评估LLM生成个性化运动处方的一致性方面存在不足，尤其是在相同条件下的重复生成场景。
本研究采用重复生成设计，使用Gemini 2.5 Flash生成运动处方，并从语义、结构和安全表达三个维度评估一致性。
实验结果表明，LLM生成的运动处方具有较高的语义一致性，但在运动强度等定量成分上存在变异性，提示结构至关重要。

📝 摘要（中文）

本研究旨在评估大型语言模型（LLM）在生成个性化运动处方时，相同条件下输出结果的一致性。研究采用重复生成设计，使用Gemini 2.5 Flash针对六种临床场景生成运动处方（每个场景20个输出，总计n=120）。一致性评估包括三个维度：基于SBERT的余弦相似度评估语义一致性；基于FITT原则，采用AI作为裁判评估结构一致性；以及安全表达的一致性，包括包含率和句子级别的量化。结果表明，各场景的语义相似度较高（平均余弦相似度：0.879-0.939），临床约束较多的情况下一致性更高。频率表现出一致的模式，而定量成分（特别是运动强度）存在变异性。在抗阻训练输出中，10-25%的强度表达无法分类。所有输出都包含安全相关表达，但不同场景的安全句子数量差异显著（H=86.18, p<0.001），临床案例比健康成人案例生成更多的安全表达。结论是，LLM生成的运动处方表现出较高的语义一致性，但在关键定量成分上存在变异性。可靠性在很大程度上取决于提示结构，在临床部署之前需要额外的结构约束和专家验证。

🔬 方法详解

问题定义：本研究旨在解决大型语言模型（LLM）在生成个性化运动处方时，输出结果一致性不足的问题。现有方法缺乏对LLM在相同条件下重复生成运动处方的一致性评估，这对于LLM在临床环境中的可靠应用构成挑战。

核心思路：研究的核心思路是通过重复生成实验，定量评估LLM在生成运动处方时的一致性。通过设计多个临床场景，并使用相同的LLM和提示词重复生成运动处方，然后从多个维度分析生成结果的相似性和差异性。

技术框架：研究的技术框架主要包括以下几个步骤：1) 设计六种不同的临床场景，涵盖健康成人和临床患者；2) 使用Gemini 2.5 Flash模型，针对每个场景生成20个运动处方；3) 从语义一致性、结构一致性和安全表达一致性三个维度评估生成结果。语义一致性采用SBERT计算余弦相似度，结构一致性基于FITT原则，由AI作为裁判进行评估，安全表达一致性则通过统计安全相关句子的数量和包含率进行评估。

关键创新：本研究的关键创新在于采用了重复生成设计，并从多个维度综合评估LLM生成运动处方的一致性。以往的研究主要关注LLM生成运动处方的准确性和个性化程度，而忽略了其在相同条件下的可靠性和稳定性。本研究通过量化分析语义相似度、结构一致性和安全表达，为评估LLM在临床应用中的可靠性提供了新的视角。

关键设计：在结构一致性评估中，研究采用了FITT原则（频率、强度、时间、类型）作为评估框架，并训练了一个AI模型作为裁判，自动评估生成结果是否符合FITT原则。在安全表达一致性评估中，研究统计了安全相关句子的数量和包含率，并分析了不同临床场景下安全表达的差异。此外，研究还分析了运动强度表达的变异性，并识别了无法分类的强度表达。

📊 实验亮点

实验结果表明，LLM生成的运动处方在语义上具有较高的一致性（平均余弦相似度0.879-0.939），但在运动强度等定量成分上存在变异性。所有输出都包含安全相关表达，但不同临床场景的安全句子数量差异显著（H=86.18, p<0.001）。研究强调了提示结构对LLM生成结果的影响，并指出在临床部署前需要额外的结构约束和专家验证。

🎯 应用场景

该研究成果可应用于开发智能运动处方生成系统，辅助医生或康复师为患者提供个性化的运动建议。通过提高LLM生成运动处方的一致性和可靠性，可以降低人为误差，提高运动干预的效果，并为远程医疗和健康管理提供技术支持。未来的研究可以进一步探索如何通过结构化提示和专家知识融合，提高LLM生成运动处方的质量和安全性。

📄 摘要（原文）

Background: Large language models (LLMs) have been explored as tools for generating personalized exercise prescriptions, yet the consistency of outputs under identical conditions remains insufficiently examined. Objective: This study evaluated the intra-model consistency of LLM-generated exercise prescriptions using a repeated generation design. Methods: Six clinical scenarios were used to generate exercise prescriptions using Gemini 2.5 Flash (20 outputs per scenario; total n = 120). Consistency was assessed across three dimensions: (1) semantic consistency using SBERT-based cosine similarity, (2) structural consistency based on the FITT principle using an AI-as-a-judge approach, and (3) safety expression consistency, including inclusion rates and sentence-level quantification. Results: Semantic similarity was high across scenarios (mean cosine similarity: 0.879-0.939), with greater consistency in clinically constrained cases. Frequency showed consistent patterns, whereas variability was observed in quantitative components, particularly exercise intensity. Unclassifiable intensity expressions were observed in 10-25% of resistance training outputs. Safety-related expressions were included in 100% of outputs; however, safety sentence counts varied significantly across scenarios (H=86.18, p less than 0.001), with clinical cases generating more safety expressions than healthy adult cases. Conclusions: LLM-generated exercise prescriptions demonstrated high semantic consistency but showed variability in key quantitative components. Reliability depends substantially on prompt structure, and additional structural constraints and expert validation are needed before clinical deployment.

Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Using a Large Language Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理