老年人衰弱预防：基于专家的人工智能所提措施评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Geriatric Nursing》：Prevention of frailty in the elderly: an expert-based evaluation of measures proposed by artificial intelligence

【字体：大中小】 时间：2026年04月04日 来源：Geriatric Nursing 2.4

编辑推荐：

　　引言人工智能（artificial intelligence，AI）的应用，尤其是诸如ChatGPT之类的对话代理，正在医疗保健行业不断扩展。该研究旨在评估ChatGPT针对老年人衰弱预防所提供的回答。方法由老年照护领域29名专家组成的评估小组对C

引言

人工智能（artificial intelligence，AI）的应用，尤其是诸如ChatGPT之类的对话代理，正在医疗保健行业不断扩展。该研究旨在评估ChatGPT针对老年人衰弱预防所提供的回答。

方法

由老年照护领域29名专家组成的评估小组对ChatGPT 3.5提供的回答进行评价，专家包括老年医学医师、老年科护士、预防工作者以及适应性身体活动教育专业人员。研究针对各项建议从条目相关性、表述方式、穷尽性以及总体评价等方面进行评分，采用0分（完全不合适）至10分（非常合适）的数字量表。

结果

ChatGPT生成了17个主题，共24个条目。该对话代理提出的17个主题与老年人衰弱预防相关文献中提出的主题高度相似。对每个主题而言，总体评分始终高于穷尽性评分[8，四分位距（IQR）8至10 vs 7，6至8；p < 0.05]。条目相关性评分系统性且显著高于其表述评分（p < 0.05）。依据专家特征（性别、年龄、职业和资历），总体评价或条目穷尽性均未见显著差异。

结论

尽管ChatGPT存在一些不足与不一致之处，人工智能（AI）仍可能成为医疗保健专业人员开展老年人衰弱预防的有用工具，但应谨慎使用。仍需进一步研究，以更深入理解该工具在医疗保健领域中的作用及潜在应用。

本文发表于《Geriatric Nursing》，围绕人工智能（artificial intelligence，AI）在老年人衰弱预防中的应用价值展开，重点评估ChatGPT 3.5生成建议的质量及其在老年照护与预防实践中的可用性。研究背景在于，全球人口老龄化正在加速，衰弱已成为重要公共卫生议题。衰弱是指机体脆弱性增加、功能储备下降、对应激源敏感性升高，并伴随跌倒、失能、住院及死亡等不良结局风险增加的一种状态。既往研究提示，早期识别与干预可在跌倒风险、心血管风险、营养、活动能力训练和身体锻炼等多个方面改善老年人衰弱状况。然而，当前关于衰弱预防的具体干预要素仍不够明确，现有指南虽数量较多，但方法学质量被认为不足。在此背景下，能够快速整合信息并生成建议的AI工具，尤其是公众可及性较高的对话代理，可能为医疗卫生专业人员提供支持，尤其适用于缺乏老年医学经验但需要参与衰弱预防的照护人员。

研究人员因此开展了一项横断面混合方法观察性研究，旨在评估ChatGPT在“可向老年人提出哪些衰弱预防措施”这一问题上的回答质量。研究的核心问题并非验证AI能否替代临床判断，而是考察其输出内容是否与老年衰弱预防领域的专业知识一致、是否足够完整、表达是否恰当，以及不同背景专家对其质量的判断是否一致。研究结果显示，ChatGPT提出的主题总体上与相关文献和老年衰弱预防框架较为一致，专家总体评价较高，但在内容穷尽性和表述精确性方面存在明显不足。由此可见，AI能够作为教育性、启发性或反思性工具，为专业人员提供结构化线索，但尚不足以直接支持临床决策。该研究的重要意义在于，从老年照护专家视角提供了对生成式AI在衰弱预防场景中应用价值与局限的实证评价，为AI在老年健康促进中的审慎使用提供了依据。

研究人员采用的主要技术方法包括：基于ChatGPT 3.5的一次标准化提问获取回答内容；构建在线问卷，由来自法国和加拿大的29名老年医学与预防领域专家进行量化评分和开放式评论；使用0–10分数值量表评价总体适宜性、相关性、表述和穷尽性；采用McDonald’s ω检验各主题内部评价一致性，采用Wilcoxon检验比较总体评分与穷尽性评分、相关性与表述评分之间差异，并结合解释性主题分析（interpretative thematic analysis）处理专家开放评论。样本来源为通过网络抽样招募的老年医学医师、护士、预防管理人员、职业医师及健康相关研究人员。

研究结果部分可概括如下。

Participants
研究共在3周内收集到29名专家的完整评估。专家中女性占44.9%，约三分之一年龄在50岁以上，约半数为医师，约三分之二具有10年以上专业经验。该专家构成表明，研究纳入了具有不同职业背景和资历层级的评估者，为回答质量判断提供了多元专业视角。

Themes and subitems created by ChatGPT
ChatGPT共生成17个主题和24个子条目。17个主题分别为：身体活动、营养、药物审查、跌倒预防、视力与听力照护、认知刺激、社会互动、戒烟与适度饮酒、定期健康筛查、力量训练、教育与认知提升、水合、预立照护计划、平衡与移动训练、规律睡眠、居家安全评估以及心理健康支持。研究人员指出，这些主题与老年衰弱预防文献中的主流内容高度相似，提示ChatGPT在主题覆盖方向上具有较好的一致性。

Quantitative analysis of the main outcome
在主要定量结果中，专家对各主题的总体评价中位数为8分，四分位距（IQR）为8至10分，说明整体接受度较高。仅“教育与认知提升”主题的中位数为7分（IQR 6至8）。所有主题及子条目的McDonald’s ω均大于0.85，其中17个主题中有11个超过0.90，表明专家对AI所提主题的评价具有较高一致性与可靠性。进一步比较发现，专家对各主题的总体评分显著高于穷尽性评分，提示ChatGPT所涉及的内容总体方向较为恰当，但覆盖仍不充分，仅“教育与认知提升”在两者之间未见显著差异（p = 0.09）。同时，几乎所有主题的相关性评分均显著高于表述评分，说明AI在“提到了什么”方面优于“如何表述这些内容”。换言之，ChatGPT在主题选择上较为准确，但语言组织、措辞清晰度和适配性仍有改进空间。

Qualitative analysis of experts open-ended comments
对专家开放式评论进行解释性主题分析后，研究人员归纳出3类意见：负面评价、改进建议和正面评价。负面评价主要集中于“信息模糊”“信息不足”“不适合老年人”“遗漏较多”“表述更像面向医护专业人员而非老年人”等，说明专家认为其回答在可操作性、对象适配性和具体细节方面仍显薄弱。第二类“改进建议”是出现最多的类别，占53.2%（n = 83），典型表述包括“需要进一步细化”“AI应加入更多要点”“术语应更清楚”“提到了重要点但没有展开”“应重新界定社会参与”等。其中，“认知刺激”“定期健康筛查”“水合”“平衡与移动训练”4个领域收到的改进建议最多，说明这些主题尤其需要更深入、更精准的展开。第三类为正面评价，如“主题设置恰当”“整体正确且表述简洁”“对老年人有用”“纳入照护者非常好”等。研究同时指出，负面评论数量与主题评分高低并不完全一致，例如“营养”和“跌倒预防”虽然收到较多负面意见，但中位评分仍为9分，反映出专家可能认可主题本身的重要性，但对内容深度和具体表达提出批评。

Socio-demographic variables influencing the analysis
研究进一步考察了性别、年龄、职业和资历对评分的影响。结果显示，无论在总体评价还是穷尽性评价上，绝大多数条目均未因专家社会人口学特征不同而出现显著差异，说明不同背景专家对ChatGPT回答质量的判断总体较为一致。唯一显著差异出现在“身体活动”主题穷尽性评分上，女性中位数为5分，男性为7.5分（p = 0.03）。但研究人员强调，样本量仅29人，解释这一差异需谨慎。

Discussion
讨论部分指出，AI辅助医疗卫生专业人员识别老年人衰弱预防措施具有现实可行性，但前提是必须由合格专业人员根据个体实际情况对AI输出进行解释、筛选和调整。研究认为，ChatGPT并非“无用工具”，其提出的主题与老年衰弱预防项目，尤其与ICOPE框架总体一致，问题主要不在主题方向，而在于回答缺乏足够细节和针对性。研究同时强调，AI生成的是一般化建议，而非个体化方案；由于提问未提供患者特征，系统只能给出广泛、标准化的内容，因此其结果虽与文献一致，却缺乏个体适配性。研究人员据此认为，ChatGPT可以作为临床决策支持的潜在补充工具，但使用时必须采取批判性态度。

讨论还指出，AI作为持续演进的工具，其表现具有时间依赖性，对某一版本、某一时间点的评估并不能外推至未来。研究特别提醒，在医疗情境中应用对话代理还涉及安全性、透明度、数据偏倚、诊断可靠性等伦理问题，因此不应将其输出不加判断地直接用于安全相关或临床相关决策。专家评价之所以表现出较高一致性，研究人员认为可能与衰弱预防本身具有跨职业共识性有关，而AI接受度更多受工具性能、社会影响和使用努力预期影响，而非个体人口学特征决定。

Limitations
研究局限性主要包括：其一，仅评估ChatGPT输出质量，并未检验其对患者结局的影响；其二，该研究为特定时间点的横断面研究，而AI内容具有动态性，结果不具备长期稳定性和广泛可推广性；其三，研究使用的是ChatGPT 3.5，后续版本性能可能已有提升，因此评价结果具有版本特异性；其四，样本量较小，限制了对不同专家特征与评分关系的深入分析；其五，采用网络抽样可能导致选择偏倚，且受邀者可能因与研究团队存在关联而调整回答。尽管如此，研究人员认为专家在开放评论中提出的问题仍可为后续机器学习优化提供反馈依据。

研究结论部分可译为：人工智能（AI）在医疗保健领域具有显著潜力。ChatGPT-3.5能够生成结构上较为恰当但缺乏个体化的预防建议，可作为医疗卫生专业人员的教育或反思工具。老年预防领域专家对其评价总体积极。然而，ChatGPT 3.5生成的回答尚未达到最佳状态，因为其缺乏足够的个体化和全面性，尚不足以作为临床决策依据。因此，其在临床环境中的即时应用目前仍缺乏充分支持。随着后续版本ChatGPT和机器学习的发展，该工具性能已有明显改善。为确保该技术在临床实践中的合理应用，保持批判性与伦理性视角至关重要。

联系信箱：

粤ICP备09063491号

热点排行