心理健康应用危机支持评估框架：开发与试点测试

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Digital Health》：Mental health app crisis support assessment framework: development and pilot testing

【字体：大中小】 时间：2026年06月10日 来源：Frontiers in Digital Health 3.8

编辑推荐：

　　心理健康应用日益成为独立干预措施或临床护理的辅助手段，但其支持经历急性心理困扰用户的能力仍未得到充分表征。本研究提出了心理健康应用危机支持评估框架（Mental Health App Crisis Support Assessment Framework，MH

心理健康应用日益成为独立干预措施或临床护理的辅助手段，但其支持经历急性心理困扰用户的能力仍未得到充分表征。本研究提出了心理健康应用危机支持评估框架（Mental Health App Crisis Support Assessment Framework，MHACSAF），这是一种用于评估心理健康应用中危机支持实施情况的标准化工具，并报告了将其应用于六款商业AI驱动产品的研究结果。MHACSAF以世界卫生组织（World Health Organization，WHO）的自杀预防指南、循证安全计划干预（Safety Planning Intervention，SPI）以及数字健康评估和可及性的既定原则为理论基础。该框架包含一个资格筛选步骤，随后是七个评分维度，总分65分：易获取性（ease of access）、覆盖范围与优先级（coverage and prioritization）、热线与紧急服务（hotlines and emergency services）、内容清晰度（content clarity）、技术可及性（technical accessibility）、本地化（localization）以及认知与引导（awareness）。三名持证临床心理学家于2025年12月至2026年1月期间，在iOS平台上独立评估了Wysa、Youper、Flourish、Earkick、Replika和Ash。评分者间信度良好（Fleiss' κ=0.87，95% CI [0.71, 1.00]；ICC(2,1)=0.94，95% CI [0.83, 0.99]）。平均总分范围为13.0至40.3（M=24.9，SD=9.3）；没有任何应用达到"良好"或"优秀"等级。Wysa表现最佳，但在可及性、本地化和离线功能方面仍存在差距。面向残障用户的技术可及性在几乎所有产品中几乎完全缺失。危机资源经常被埋在对话界面之后，且若干应用将安全关键信息委托给外部网站，而这些网站的链接存在失效或无法访问的问题。这些发现表明，当前AI心理健康应用在心理紧急情况下未能充分应对用户安全，并提示MHACSAF为危机支持实施情况的基准测试和改进提供了一种可重复的方法。

本研究旨在解决AI心理健康应用中危机支持质量缺乏系统评估工具的问题。研究人员开发了心理健康应用危机支持评估框架（MHACSAF），并对其进行初步信度检验，进而将该框架应用于六款商业AI驱动心理健康产品，以首次系统性地表征这一产品类别中危机支持的质量现状。该研究成果发表于《Frontiers in Digital Health》。

研究背景与动机方面，心理健康应用已在消费者应用商店中大量涌现，提供包括情绪追踪、认知行为练习和AI驱动对话支持在内的多种干预措施。然而，这些产品的质量与安全特征差异显著，给试图区分有效工具与潜在有害工具的用户带来挑战。一个持续存在的核心问题是：当用户在使用产品过程中经历痛苦、自杀意念或其他危机状态时，这些应用是否具备支持用户的能力。从临床意义而言，当经历急性自杀危机的个体转向心理健康应用而非临床医生时，该应用即成为事实上的第一响应者，其危机功能的充足性决定了用户能否获得适当帮助、可行的安全策略，还是在高风险时刻被置于无实质支持的境地。从公共卫生视角，自杀预防是全球优先事项，世界卫生组织强调包括危机服务和快速照护链接在内的多层级策略。心理健康应用具有广泛覆盖和全天候可用的优势，为及时向原本无法获得服务的用户提供危机支持创造了潜力；然而，不充分的危机实施可能在用户最脆弱的时刻令其失望，且失败的后果不可逆转。当前应用危机支持的状态与这种潜力之间的差距尚未得到系统性表征。

研究人员开展的研究工作包括：首先，通过迭代专家共识程序，历经四阶段开发MHACSAF，包括项目生成、专家审查与完善、权重分配、试点测试与最终确定；随后，由三名持证临床心理学家（AK、TP、NP）在iOS平台上，于2025年12月至2026年1月期间，独立对六款商业AI驱动心理健康应用（Wysa v.6.10.5、Youper v.12.07.003、Flourish v.2.46.0、Earkick v.2.13.7、Replika v.11.2.1、Ash v.2.3.7）进行MHACSAF评估。应用筛选标准为：iOS应用商店商业可用、明确定位为AI驱动或对话式心理健康工具、应用商店评分数≥10000、危机支持实施方式具有多样性。评估前，评分者完成培训，熟悉评分标准；评估时按随机顺序独立进行，每款应用至少分两次会话评估，总计约90-150分钟。评估后计算Fleiss' kappa、ICC(2,1)等统计指标，并进行描述性统计分析。

研究得出的结论是：MHACSAF具有良好的评分者间信度（Fleiss' κ=0.87，95% CI [0.71, 1.00]；ICC(2,1)=0.94，95% CI [0.83, 0.99]），可作为可重复的评估工具；六款被评AI心理健康应用的危机支持质量均低于既定标准，平均总分24.9分（满分65分），无一款达到"良好"或"优秀"等级，其中Wysa得分最高（40.3分）也仅达"合格"上限，Replika最低（13.0分）处于"差"与"不合格"边界。研究的重要意义在于：为研究者、开发者、监管者和临床医生提供了可重复的方法论，以测量和推动AI心理健康应用危机支持的改进；同时揭示了当前AI驱动心理健康产品在用户危机安全方面的系统性不足，强调确保心理健康应用对危机用户安全是任何其他潜在益处的基本先决条件。

主要关键技术方法方面，研究人员开发MHACSAF时整合了三方面理论基础：WHO危机热线指南（强调非评判性支持、保密性、快速链接服务）、安全计划干预模型（SPI，评估个性化警告信号识别、应对策略、社会支持、专业资源和手段安全步骤）以及数字健康质量、可用性和可及性标准（包括Web内容可及性指南WCAG 2.2^{WCAG 2.2}、ISO 9241-11^{ISO 9241-11}）。框架结构包含七个评分维度共65分：易获取性（12分）评估危机资源的可发现性和可及性，包括导航深度、多路径访问、主动危机检测、离线可用性；覆盖范围与优先级（24分）评估危机状态覆盖广度及自杀预防资源优先级，涵盖五种主要危机表现（自杀意念/意图、惊恐发作、自伤冲动、急性焦虑/痛苦、物质相关危机）及多种支持选项；热线与紧急服务（13分）评估热线功能易用性和信息丰富度；内容清晰度（6分）评估危机内容准确性、非触发性和可执行性；技术可及性（3分）评估屏幕阅读器兼容性、触摸目标适足性等辅助技术支持；本地化和语言（4分）评估地理定制和语言本地化；认知与引导（3分）评估用户对危机功能的教育程度。评分采用结构化专家共识确定阈值：0-13.9分为"不合格"，14.0-26.9分为"差"，27.0-40.9分为"合格"，41.0-52.9分为"良好"，53.0-65.0分为"优秀"。试点研究由三名持证临床心理学家独立完成，使用标准化危机提示词进行交互测试，并通过激活iOS VoiceOver评估技术可及性。统计分析使用R软件（版本4.3.2）的irr和psych程序包，计算Fleiss' kappa（10,000次bootstrap重采样）、ICC(2,1)及配对Cohen's kappa。

研究结果部分，按各维度分述如下。

易获取性方面，该维度结果普遍令人失望，均值范围为1.0至5.7分（满分12分）。Wysa表现最佳，两步可达危机内容，且提供多种导航路径，但安全计划仅通过搜索查询出现，主菜单无快捷方式。Flourish和Replika均约1分，危机内容深埋多层或无导航形式。所有应用均有关键词检测机制，但质量差异大：Youper需多次对话才呈现资源，其产生的bitly链接无法点击或复制，用户需手动转录缩短URL，这对急性痛苦中的用户而言不切实际。所有应用均缺乏危机资源的离线访问。

覆盖范围与优先级方面，该维度得分差异最大，为4.3至20.3分（满分24分）。Wysa覆盖全部五种危机类别，提供安全计划、生存理由提示、 grounding练习、致命手段指导等多种干预选项，但个人联系人功能不足，仅可列出支持性人物姓名而无法存储电话号码或快速拨号。Flourish覆盖五种危机状态，平均17.7分，提供热线、安全计划、希望卡片、应对工具，但界面未突出这些功能。Replika仅处理自杀意念，无安全计划或紧急联系人存储，其危机机制完全依赖于用户提及自杀时的反应性聊天回应。

热线与紧急服务方面，得分普遍偏低，为2.0至6.0分（满分13分）。Wysa表现最佳，提供两条热线、112紧急服务接入、一键拨号及特定人群（如LGBTQ+）专线，地理适配功能正常。Ash采用不同策略，将用户引导至Find a Helpline外部数据库，选择国家后可获得三条以上热线及实时可用性指示，但存在第三方平台依赖风险。Youper的方式引发严重关切：热线信息以聊天中的bitly链接形式出现，点击无响应，唯一有效链接指向维基百科国际危机热线列表——将安全关键信息外包给众包百科全书，另一链接触发浏览器安全警告且无法加载。除Ash的外部链接外，所有应用均未提及热线运营时间。

内容清晰度方面，该维度相对较好，均值为3.7至5.7分（满分6分）。Youper和Flourish接近满分，表现出清晰的 prose、逻辑结构、共情措辞和可读排版。Wysa因设计选择得分较低（4.0分），说明文字为浅灰色小字体，配色方案（柔和白、蓝、绿）未形成视觉层次，使关键内容显得可有可无。Replika的3.7分反映对比度弱、有限危机内容呈现混乱。

技术可及性方面，这是整体上最弱的维度。六款应用中三款精确得0分（Ash、Earkick、Youper）；仅Wysa（1.0分）、Flourish（0.3分）和Replika（1.7分）对残障用户有任何适应性安排，其中Replika表现最佳，支持VoiceOver并提供适足触摸目标，Wysa仅按钮尺寸合适，Flourish的0.3分反映边际且不一致的表现。五款应用对盲、运动障碍或依赖辅助技术的用户实际上不提供危机支持。

本地化和语言方面，地理和语言适配仍然薄弱（M=1.4，范围0.3-2.0）。Replika几乎未提供任何本地化——无基于位置的资源，仅英语。Wysa、Flourish、Ash和Youper按国家调整内容，但未自动检测本地热线号码。Earkick提供地理但未提供语言本地化。所有应用均未告知用户所列出热线支持何种语言，这对非英语使用者可能产生严重后果。

认知与引导方面，均值为0.0至2.0分（满分3分）。四款应用（Flourish、Earkick、Youper、Replika）未提供任何关于危机功能的引导，无使用说明或存在提醒。Ash在设置中提供简要说明。Wysa表现最佳（2.0分），解释危机资源并发送偶尔提醒，但初始设置中无危机内容。这意味着用户仅在危机发生时才发现危机功能，而此时导航陌生界面的认知负担可能难以承受。

跨应用观察方面，研究人员发现若干共性模式：第一，危机支持被视为事后考虑，大多数应用将其作为显式用户陈述触发的附加功能而非核心功能，Earkick甚至反复声明不承担危机护理责任。第二，对话式AI成为危机资源的守门人，所有六款应用均要求用户通过自然语言对话表达痛苦后才能呈现资源，这对危机中最不适合满足此要求的人群施加了巨大需求。第三，危机信息责任被外包，Youper、Ash和Earkick将危机内容委托给外部网站，虽可能改善信息时效性，但牺牲了可靠性控制，失效链接、安全警告和第三方停机成为安全关键内容的潜在故障模式。第四，无应用提供健全的个人安全网络，未一款提供功能性个人紧急联系人存储和快速访问，Wysa的支持网络仅允许列出姓名而非号码，无设备联系人集成或一键拨号，错失了将用户与其自身信任支持系统连接的机会。

讨论部分，研究人员首先确认MHACSAF具有强评分者间信度，Fleiss' kappa=0.87达"几乎完全同意"水平，ICC(2,1)=0.94超过"优秀"阈值，优于多数现有应用评估工具的典型中等一致性（κ=0.40-0.60）。这种可靠性部分源于仪器设计：将每个项目锚定于可观察的界面特征，减少评分者推断，符合实施科学中关于开发可重复保真度测量的建议。内容效度基于迭代专家共识程序，但正式内容效度指数尚未计算，构念效度及聚合效度（如与美国精神病学协会应用评估模型或NICE证据标准框架的相关性）有待未来研究。生态效度亦为考量：专家使用标准化提示可能无法完全复制急性危机用户的实际体验，纳入有心理健康危机生活经验者的参与式验证将是重要补充。

关于AI心理健康应用危机支持的现状，研究人员指出六款商业产品的危机支持实施水平均显著低于既定标准，平均总分集中于"差"范围（M=24.9，SD=9.3），最高 performer Wysa（40.3分）也仅达"合格"上限。这与前人研究一致：Parrish等发现116款心理健康应用中仅少数提供危机资源；Larsen等记录智能手机自杀预防工具中安全相关功能实施的广泛不一致；Martinengo报告多数抑郁和自杀预防应用缺乏功能性安全计划组件和充分风险评估。Dwyer等对302款商业心理健康应用的评估发现仅15%纳入988自杀与危机生命线，14款合计超3500万次下载的应用提供错误或失效危机热线。本研究通过七维度系统项目级评分，展示了这些不足如何具体体现为埋藏导航、非功能链接、缺失离线功能和可及性适应缺位等设计失败。技术可及性失败是临床意义上最重要的发现之一，心理健康状况与视觉、运动和认知障碍的共病率显著高于普通人群，无法被屏幕阅读器用户导航的应用无论其危机内容设计多么完善，对该人群均无安全收益。将危机信息外包至外部平台的模式构成系统性安全风险，最小化痛苦识别与求助之间的障碍是干预效果的必要条件，而两种外包方式均无法保证用户成功使用所定位的危机资源。全部六款应用依赖对话式AI作为危机资源的主要入口，要求危机中的用户发起并维持多轮对话才能获得支持，这恰恰引入了安全计划模型旨在消除的摩擦，与Sobowale等对生成式AI聊天bot的评估结论一致。此外，无应用提供循证安全计划核心的个人安全联系人功能，这种持续性缺失反映了一种共享设计理念——将危机支持定位为反应性附加组件而非核心产品功能。

对实践和未来研究的启示方面，对开发者而言，危机资源应在任何屏幕上一两次交互内可达，离线缓存必要内容技术可行，个人安全联系人功能仅需标准平台API，WCAG 2.2和ARIA标准的可及性合规在多国为法律要求。对研究者而言，MHACSAF提供了可重复的基准测试工具，可补充APA应用评估模型或移动应用评分量表等更广泛的评估方法，未来研究应检验MHACFA评分与临床结局的关联。对临床医生而言，推荐应用时应显式评估危机支持充足性。对监管者和政策制定者，MHACSAF可作为医疗器械软件（SaMD）审计标准的方法论基础，支持上市前审查、上市后监督和强制最低标准制定。

研究局限性包括：六款应用样本为选择性而非概率代表性样本；仅评估iOS平台，安卓实施可能差异显著；评估为单一时点，应用更新频繁；MHACSAF仅捕获外部评估者可见的实施情况，不涉及后端功能或实际用户体验；未验证危机资源信息的准确性或时效性；评估 panel为特定地理背景的英语专业人士，对本地化和语言支持的评估可能无法完全反映其他地区或语言社区用户的体验；未获取内容效度指数和聚合效度数据；统计分析由作者自行完成，无生物统计学家独立审核。

研究结论部分翻译如下：本研究介绍了MHACSAF，一种用于评估心理健康应用中危机支持实施情况的理论基础工具，并通过将其独立试点应用于六款商业AI驱动产品证明了其可靠性。该仪器的强评分者间一致性（Fleiss' κ=0.87；ICC(2,1)=0.94）确立了其作为可重复测量工具的地位。试点发现记录了一致且临床重要的不足模式：没有任何被评应用以符合既定标准的方式实施危机支持，且若干应用通过失效链接、非功能热线和几乎完全缺失的可及性适应，主动向求助设置了障碍。这些发现的更广泛意义在于它们揭示了该领域的整体状况。被评应用合计代表数百万可能在急性痛苦时求助的用户。这些产品所提供的与循证危机支持所要求的之间的差距，不是技术能力的差距——而是设计优先级的差距。MHACSAF使这一差距可测量。有了经过验证的仪器，研究人员、开发者、监管者和临床医生可以从记录不足转向系统追踪和要求改进。确保心理健康应用对危机用户安全并非边缘的质量关切：它是这些产品可能提供的任何其他益处的基本先决条件。

联系信箱：

粤ICP备09063491号

热点排行