一种用于评估人际枪支暴力风险的临床筛查工具的多站点外部验证

《Annals of Internal Medicine》：Multisite External Validation of a Clinical Screening Tool for Interpersonal Firearm Violence Risk

【字体：大中小】 时间：2026年04月08日 来源：Annals of Internal Medicine

编辑推荐：

　　摘要背景：需要开发用于筛查人际枪支暴力（FV）的工具，以促进预防工作。目的：验证由4个项目组成的10分SaFETy评分系统（包括严重斗殴、朋友携带武器、社区环境以及枪支威胁）。设计：前瞻性纵向研究。地点：美国3个城市中的4家一级急诊科（ED）。参与者

　　摘要
背景：需要开发用于筛查人际枪支暴力（FV）的工具，以促进预防工作。
目的：验证由4个项目组成的10分SaFETy评分系统（包括严重斗殴、朋友携带武器、社区环境以及枪支威胁）。
设计：前瞻性纵向研究。
地点：美国3个城市中的4家一级急诊科（ED）。
参与者：因任何原因在急诊科就诊的18至24岁成年人。
测量指标：基线后12个月内发生FV的情况（包括开枪伤人或被枪击），SaFETy评分，以及基线时的自报协变量（人口统计特征；基线时的攻击性伤害；过去6个月内因暴力原因就诊的次数；药物滥用情况；焦虑、抑郁和创伤后应激障碍筛查结果；以及过去6个月内发生的FV）。
结果：在1506名参与者中（61.4%为女性；平均年龄21.3岁；3.8%在基线时有攻击性伤害），有1122人（74.5%）的12个月内FV情况可被确定；其中73人（6.5%）确实发生了FV。基线时SaFETy评分为0、1至5分和6分及以上的12个月内FV发生率分别为1.8%（654人中的12人）、12.1%（406人中的49人）和25.0%（40人中的10人）。该评分系统的接收者操作特征曲线（ROC）下面积（AUC）为0.78（95%置信区间：0.72至0.83）。最佳的ROC临界值为SaFETy评分大于0分，此时敏感性为83.1%，特异性为62.4%；SaFETy评分大于4分时阳性预测值最高（31.6%）。通过包含所有协变量的逻辑回归分析发现，根据SaFETy评分分组的患者中，模型预测的风险存在偏差：SaFETy评分为0分时低估了风险，而评分为1至5分或6分及以上时高估了风险。将SaFETy评分加入所有协变量后，预测的AUC有所提高（0.84 vs 0.81；P = 0.025）。此外，SaFETy评分对仅基于分诊时可获得变量（人口统计数据、就诊原因和近期急诊就诊史）的预测结果的补充作用显著。
局限性：主要结果为自我报告数据，且高风险亚组的缺失数据比例较高。
结论：SaFETy评分能够预测急诊科年轻成年人的FV风险。尽管使用了包含难以测量或具有侵入性的因素的全面协变量集，但仍未完全再现该评分的风险梯度或解释其区分能力，表明该评分提供了独特的预测信息。

主要资金来源：美国疾病控制与预防中心（Centers for Disease Control and Prevention）。

人际枪支暴力（FV）仍然是美国年轻人（1-4岁）发病率和死亡率的主要原因之一，也是导致健康差异的重要因素（5, 6）。临床接触，包括急诊科就诊，是预防人际FV的机会（7）。有效利用这些机会需要识别高风险人群。一种经过外部验证的、非侵入性的FV风险筛查工具对于指导FV相关干预措施具有重要意义。基于医疗保健的暴力筛查越来越普遍，但目前仍缺乏实用的FV风险评估方法。现有工具主要针对特定类型的暴力（如亲密伴侣暴力或急诊科中的职业暴力）；或者试图泛化预测暴力行为（10）；或者预测其他与FV相关的结果（如携带枪支）（11）。医院内的暴力干预通常仅针对因暴力伤害就诊的患者（12）。虽然因暴力伤害就诊的年轻人未来发生FV的风险较高（13）和再次受伤的风险也较高（14-16），但因其他原因就诊的年轻人也可能处于高风险中（13），因此需要另一种针对枪支的 risk 分层方法。

SaFETy评分（包括严重斗殴、朋友携带武器、社区环境以及枪支威胁）是一种基于4个自报项目的枪支特异性风险筛查工具：斗殴频率、听到社区枪声、朋友携带武器以及受到枪支威胁的频率。该评分能够在不涉及侵入性问题的情况下预测评分后24个月内的FV情况（例如，参与者是否实施过FV或其他犯罪行为）。先前的研究也表明，该评分在控制就诊原因后仍具有预测能力，并且其有效性不受就诊原因的影响（17）。然而，该评分是在单一地点开发的，且研究对象中暴力受伤青少年的比例较高。因此，需要在普通青少年急诊科样本中评估其预测性能，这也是本研究的主要目的。

SPARK（筛查高风险青少年枪支暴力）研究（18）是一项针对因任何原因就诊于一级急诊科的年轻人的前瞻性纵向研究。先前的SPARK研究已报告了基线时SaFETy评分与FV之间的关联（19），支持将其作为非侵入性FV历史查询工具的可行性。SPARK的一个主要目标是通过评估其在预测基线后12个月内FV（开枪伤人或被枪击）方面的表现来外部验证SaFETy评分的有效性。在本分析中，我们考察了SaFETy评分的预测能力及其在不同亚组中的差异，并研究了其他临床协变量是否对其预测能力有影响。

**研究设计与地点**
SPARK是一项为期12个月、基于急诊科的前瞻性纵向研究，研究地点包括华盛顿州西雅图（1个地点）、宾夕法尼亚州费城（2个地点）和密歇根州弗林特（1个地点）。符合条件的参与者为18至24岁的英语 speaking 急诊科患者。排除被警方拘留者、无法同意参与者（如因医疗原因无法参与者），以及因需要接受特殊治疗而患有自杀意念、精神疾病或性攻击行为的患者。招募工作始于COVID-19大流行初期，未接触采取飞沫预防措施的患者。工作人员在患者等待或治疗期间邀请其参与研究。同意参与的参与者需完成基线调查（约25至30分钟），并在基线后1年、6个月和12个月接受随访调查。西雅图、费城和弗林特的招募时间分别为2021年8月26日、2021年7月26日和2022年1月24日，结束时间分别为2023年5月25日、2023年5月31日和2023年5月9日。基线调查的报酬为40美元；6个月和12个月的随访调查报酬分别为40美元，更新或确认联系信息的报酬为5美元。为提高随访率，6个月和12个月的报酬分别提高到60美元和75美元，更新联系信息的奖励增加到10美元。基线调查通过研究专用平板电脑完成，或在招募后72小时内通过安全链接在其他地方完成。参与者可通过智能手机、电脑或平板电脑通过安全链接进行电子随访调查。所有程序均获得了Hurley Medical Center、密歇根大学、华盛顿大学和宾夕法尼亚大学的伦理审查委员会批准。

**测量指标**
主要结局指标是基线后12个月内发生的任何FV事件（是否被枪击或开枪伤人）。我们使用修订后的冲突策略量表（Conflict Tactics Scale）的改编版本（20）来测量过去6个月的自报FV情况（分为伴侣间和非伴侣间的暴力行为，以及被枪击和开枪伤人的行为，共4个项目）（补充表1，详见Annals.org）。在6个月或12个月时，若回答“从未”以外的选项，则视为基线后12个月内发生过FV。此外，基线后12个月内因枪支伤害就诊的参与者也被视为发生过FV。

**主要暴露因素**
SaFETy评分（0至10分）包括过去6个月的斗殴频率（基于National Longitudinal Study of Adolescent to Adult Health的研究项目）、携带武器的朋友数量（基于Flint Adolescent Study的项目）、过去6个月内听到枪声的频率（基于Things I’ve Seen and Heard调查的项目），以及过去6个月内收到枪支威胁的频率（基于修订后的冲突策略量表的改编项目）。

**补充表2（详见Annals.org）**展示了SaFETy评分的计算规则。除非另有说明，否则SaFETy评分被分为3个风险等级（0、1至5分或≥6分）。

**研究方法**
经过培训的研究助理查阅了基线时的急诊记录，并根据主要症状和出院诊断将就诊类型分类为与伤害相关或其他类型（如医疗或精神疾病相关）。首席研究员检查了就诊原因的分类并进行必要修正。对于与伤害相关的就诊，我们确定了伤害机制（如跌倒或枪击）和意图（如攻击）。同样，通过医疗记录确认了基线后12个月内的枪支伤害情况。此外，参与者在基线时还报告了过去6个月内的急诊就诊次数（包括因暴力行为、攻击或其他原因）。

**其他基线自报指标**
还包括人口统计特征、过去6个月的FV情况，以及心理健康状况和物质使用情况的筛查结果。人口统计数据包括年龄、种族/民族和自我认同的性别（根据Herman [24] 分为男性、女性和性别非二元）。基线调查使用了与上述6个月和12个月FV调查相同的问题来询问过去6个月的FV情况。过去2周的抑郁筛查结果为阳性，若Patient Health Questionnaire–9（25）得分至少为10分；过去2周的焦虑筛查结果为阳性，若Generalized Anxiety Disorder（26）得分至少为10分；过去1个月的创伤后应激障碍（PTSD）筛查结果为阳性，若17项PTSD Checklist得分至少为30分；过去6个月的药物滥用情况，若Alcohol, Smoking, and Substance Involvement Screening Test（28）中任何物质子项目的得分至少为4分（包括大麻、可卡因、处方兴奋剂、甲基苯丙胺、吸入剂、致幻剂、处方镇静剂、街头阿片类药物或处方阿片类药物）。过去6个月的高风险饮酒行为，若Alcohol Use Disorders Identification Test（29）得分至少为4分（男性）或至少3分（女性）。

**统计分析**
我们比较了有无12个月内FV的参与者在人口统计特征、地点、SaFETy评分水平（0、1至5分或≥6分）和自报临床特征方面的差异。定量数据使用Cohen d统计量进行比较，二元数据使用Cohen h统计量进行比较（小差异：0.2；中等差异：0.5；大差异：0.8 [31]）。我们描述了有无12个月内FV的参与者在SaFETy评分上的分布情况（总体及按地点划分）。

**结果**
总体而言，以及按地点和性别、基线就诊原因划分，我们报告了每个SaFETy评分水平（0、1至5分和≥6分）的12个月内FV发生率、SaFETy评分的AUC，以及SaFETy评分大于0分作为阳性筛查结果的敏感性和特异性。最后，我们研究了其他协变量是否削弱了SaFETy评分的区分能力（即ROC曲线下面积）。我们研究了以下两组协变量：在分诊时常规可获得的因素（年龄、性别、种族、地点、基线攻击伤害指标以及过去6个月内与暴力相关的急诊就诊次数[自我报告]），以及与家庭暴力（FV）风险相关的较少常规获得的因素（过去6个月内自我报告的家庭暴力经历、创伤后应激障碍（PTSD）、抑郁、焦虑和药物滥用）。我们的模型构建首先使用在分诊时常规可获得的协变量集，然后添加第二组协变量。仅调整常规可获得的因素被认为是一种更“现实”的测试方法，以评估SaFETy评分的附加价值，而完整的协变量调整（即包括两组协变量）则创建了一个更严格的测试方法，其中包含了更多可能干扰测量的因素。我们进行了以下三项分析：

1. 首先，我们比较了包含常规可获得的变量的逻辑回归模型与不包含SaFETy评分的模型的ROC曲线，并在调整了完整协变量集后进行了类似的比较。我们使用DeLong检验（32）来检查SaFETy评分是否提高了AUC。

2. 其次，我们使用两个逻辑回归模型（一个包含常规可获得的变量，另一个包含完整协变量集）计算了三组患者的平均预测家庭暴力风险——SaFETy评分为0、1至5和6或更高的患者，并将这些预测结果与实际观察到的家庭暴力发生率进行了比较，从而量化了每组协变量在多大程度上再现了SaFETy评分的风险梯度。

3. 第三，我们使用包含两组协变量的两个逻辑回归模型，计算了SaFETy评分为0与1至5之间以及SaFETy评分为0与6或更高之间的协变量调整后的对比结果。效应以边际效应的形式展示（33），提供了12个月内家庭暴力发生率的协变量调整后估计值。

在分析1中，分析样本包括所有具有SaFETy评分、家庭暴力情况及相关协变量完整数据的人。在分析2和3中，我们逐步添加协变量以观察预测结果的变化，包括具有结果变量、SaFETy评分以及完整协变量集中所有数据的人。我们使用R语言版本4.1.1（R Foundation）进行数据分析。

尽管在我们的分析中缺失数据并不严格限于结果变量，但大多数缺失案例都是由于结果变量导致的，因为它是唯一可能受到流失影响的变量。我们使用完全案例分析（CCA）而不是多重插补（MI）来处理缺失数据，这样做有两个理由：首先，基于CCA的逻辑回归系数估计（除了截距之外）即使在缺失概率取决于结果变量的情况下也是大致无偏的，只要缺失不进一步依赖于自变量（34），而这种情况是无法通过统计方法验证的；在这种情况下，多重插补可能会有偏差。其次，如果数据是随机缺失的，并且只有结果变量缺失，那么CCA等同于最大似然估计；最大似然估计的优化意味着无法通过多重插补进一步提高估计精度（35）。因此，即使某些后续数据显示高风险参与者更有可能缺失数据，我们也更倾向于使用CCA而不是MI。

**资金来源的作用**
疾病控制与预防中心（Centers for Disease Control and Prevention）没有参与研究设计、数据分析或决定提交手稿发表的过程。

**SPARK的基线人口统计信息**
之前已经报告了SPARK的基线人口统计信息（18）。简而言之，共有1506人（西雅图649人；弗林特318人；费城539人）完成了基线调查。其中61.4%为女性，41.7%为黑人，33.6%为白人；22.1%报告有西班牙裔血统；5.9%的人在过去6个月内有过家庭暴力经历（18）。图1显示了参与者招募的过程。由于患者特定的隐私限制，无法确定27名参与者（1.8%）进行基线急诊就诊的原因。在确定了就诊原因的参与者中，487人（32.9%）的就诊与受伤有关，56人（3.8%）的就诊与攻击性伤害有关。在受伤相关的就诊中，机动车事故（n=129 [26.4%]）最为常见，其次是跌倒（n=92 [18.9%]）和被拳头或物体击中（n=67 [13.8%]）；13例伤害（2.7%）与枪支有关。两名参与者在基线后一年内死亡（死因不明）。如之前报道的（18），基线样本中SaFETy评分为0、1至5和6或更高的比例分别为55.5%、37.3%和5.0%；33名参与者（2.2%）的SaFETy评分缺失。完整样本中4个SaFETy评分组成部分的频率见补充表2；最常见的非零点贡献是在社区听到枪声。

在6个月和12个月时，分别有1229人（81.6%）和1185人（78.7%）完成了随访或部分完成了随访（包括暴力评估）。1122名参与者（74.5%）的12个月家庭暴力结果得到了确认（图1）。补充表3和表4（可在Annals.org上查看）比较了有和没有6个月及12个月随访的人在人口统计特征、地点、过去6个月的家庭暴力情况以及其他健康筛查方面的差异。那些未完成随访的人更可能是男性，且来自西雅图站点，并且在几个基线因素上存在差异（如过去6个月的家庭暴力经历、更高的SaFETy评分和更高的药物滥用率）。

**12个月的家庭暴力情况**
在1122名有结果数据的人中，有73人（6.5%）在基线后的12个月内发生了家庭暴力。其中3人在医疗记录审查中发现有枪支伤害，71人自我报告有家庭暴力，1人同时符合这两种情况。每个地点的大多数家庭暴力事件都是受害者（即被枪击），并且不涉及亲密伴侣（补充表5，可在Annals.org上查看）。表1显示了有和没有12个月家庭暴力的人在人口统计特征、地点和基线测量值方面的未调整比较。积极的精神健康筛查结果（焦虑、抑郁或PTSD）、积极的药物滥用筛查结果、过去6个月的家庭暴力情况以及过去6个月内因暴力而就诊的频率与12个月的家庭暴力发生有关。

**SaFETy评分的未调整预测能力**
图2显示了有和没有12个月家庭暴力的人的每个评分的相对频率，按地点分层。每个SaFETy评分阈值的敏感性、特异性、阳性预测值和阴性预测值见补充表6（可在Annals.org上查看）。最佳的ROC切割点是SaFETy评分大于0，此时敏感性为83.1%，特异性为62.4%。最佳的阳性预测值出现在SaFETy评分切割点为4时，敏感性为35.2%，特异性为94.8%。AUC为0.78（95% CI，0.72至0.83）。在33名基线SaFETy评分缺失的人中，有22人的12个月家庭暴力情况已知，其中2人（9.1%）的答案为“是”。

表2显示了总样本和各子样本中SaFETy评分的预测特征。在总样本中，SaFETy评分为0、1至5和6或更高的人的12个月家庭暴力发生率分别为1.8%、12.1%和25.0%。在西雅图和费城站点，SaFETy评分大于0时的AUC、敏感性和特异性数值上更高。在未受伤的急诊患者中，预测指标略高。该评分在男性和女性参与者中的表现相似。在性别不符合的参与者中评分表现良好，但在遭受攻击性伤害的参与者中表现较差，但由于样本量较小，这些发现的解释受到限制。

**SaFETy评分的协变量调整后预测能力**
图3显示了基于包含分诊时常规可获得的变量和完整协变量集的逻辑回归模型的家庭暴力风险预测的ROC曲线。将SaFETy评分添加到常规可获得的协变量中后，ROC曲线整体上更高（即在固定特异性下敏感性更高），在完整协变量调整后的结果类似但差异较小。仅使用常规可获得的协变量进行预测时，AUC为0.75；添加SaFETy评分后，AUC增加到0.82，差异显著（P=0.002）。包含完整协变量集的预测中，AUC为0.81，当添加SaFETy评分后，AUC增加到0.84，差异显著（P=0.025）。

图4显示了包含分诊时常规可获得的变量和完整协变量集的模型对SaFETy评分为0、1至5和6或更高的人的12个月家庭暴力情况的预测。与实际观察到的12个月家庭暴力风险相比，两个模型的风险估计都趋于平均值——在SaFETy评分为0的人中高估了风险，在非零评分的人中低估了风险——这表明两组协变量都无法完全解释SaFETy评分的预测能力。同样，即使在连续进行协变量调整后，患病率差异仍然很大且具有统计学意义（补充表7，可在Annals.org上查看）。

**讨论**
在这项多机构、前瞻性、纵向研究中，我们报告了SaFETy评分在预测18至24岁因任何原因就诊于急诊室的个体在基线后12个月内发生家庭暴力风险的性能。超过40%的基线样本的SaFETy评分高于0；SaFETy评分类别0、1至5和6或更高与12个月的家庭暴力发生率呈剂量-反应关系。即使在调整了人口统计、行为和临床协变量后，该评分仍增加了预测能力。综合这些现实世界的结果，支持了SaFETy评分在筛查年轻人枪支风险方面的潜在价值，并证明了其在多种临床和研究环境中的先前应用（36–40）。尽管对于因暴力伤害就诊的青少年显然需要预防服务，但SaFETy评分可以补充提供人际家庭暴力的初级预防措施。值得注意的是，我们的多站点普通急诊样本中年轻人的预测指标优于用于开发该评分的高风险样本（17）。尽管男女之间人际家庭暴力的病因有很大差异（41），但我们的结果表明SaFETy评分对两性的风险评估相似。此外，尽管在非受伤就诊者中AUC较高，该评分对受伤者的区分能力也较好。然而，由于样本量较小，对受伤子样本中较低的AUC应谨慎解释。

**当前研究的一个关键优势是包括了来自不同环境的数据：1个中西部锈带城市（弗林特）、1个东海岸城市（费城）和1个西海岸城市（西雅图）。费城和西雅图的相似表现支持了SaFETy评分的多样化应用场景。然而，表现最差的是SaFETy评分最初开发的城市——弗林特（例如，AUC最低）。这可能表明在具有独特暴露和挑战的城市（如弗林特）中，暴力的病因有所不同（42, 43），并证实了多站点外部验证的重要性。可能需要在其他高风险环境中进行进一步评估，但我们的结果表明，该评分在这些环境中仍然适用，特别是在没有其他替代指标的非受伤患者中。

**我们结果的稳健性得到了严格协变量调整后的验证。** 即使在包括可能干扰自我报告的变量（如过去6个月的枪支攻击行为）或在繁忙急诊室中测量更为耗时的变量（如多次心理健康筛查）的情况下，风险等级仍然保持稳定。尽管这些变量是相关的风险因素，但它们既无法解释SaFETy评分识别的风险梯度，也无法完全替代其区分能力。当这些变量可用时，显然在评估暴力预防服务的需求时需要考虑它们，但我们的结果表明SaFETy评分提供了独特的预测信息。尽管在将SaFETy评分添加到完整协变量集后AUC的差异不大（0.84 vs 0.81），但SaFETy评分提供了一个简单的评分，可以估计家庭暴力风险，而这无法通过观察风险因素集的存在与否直接获得。

**未来的关键工作** 需要评估干预措施，以开发和评估针对家庭暴力高风险青少年的筛查和转诊实践。将SaFETy评分大于0视为未来风险的阳性筛查结果具有高敏感性和可接受的特异性，尽管适当的阈值取决于具体情境，因为基于敏感性的阈值并不总是具有成本效益（44）。SaFETy评分阈值高于0可能最适合用于普遍筛查或初级预防，对于筛查结果呈阳性的个体，可以采取成本较低的短期干预措施，例如SafERteens项目（45）。而对于筛查阈值较低的情况（例如SaFETy评分>0），采用成本较高的干预措施（如密集的多阶段行为疗法和全方位护理管理服务）可能并不具有成本效益，这些措施最好应用于基于最大阳性预测值的阈值（即SaFETy评分>4）。了解实施筛查和预防干预措施的障碍和促进因素对于优化暴力预防机会至关重要。

本研究存在一些局限性。首先，这些结果主要依赖于自我报告的数据。尽管我们的自我报告数据显示出一致性（例如，基线时FV阳性筛查结果与12个月后的FV情况之间的关联），但客观测量方法会更加可靠。其次，一些高风险参与者未能提供SaFETy评分数据或在随访过程中失联。未来的研究应更有效地吸引这些高风险人群的参与，因为有证据表明，这些个体可能不太愿意完成全部4项SaFETy评分调查，或者比18至24岁急诊科患者群体更难以长期参与（例如完成随访）。最后，尽管这是一项多站点研究，但我们的结果主要适用于高密度的城市急诊科。这种环境对于研究人际暴力行为至关重要，但在其他地区（包括不同的区域和临床背景）以及其他类型的暴力行为（如自伤行为）中，以及在非英语人群中，也需要进行暴力风险筛查。

在这组18至24岁的青少年急诊科样本中，超过六分之一的人在基线后的12个月内报告了暴力行为，近一半的人SaFETy评分升高（>0），这表明普遍实施暴力预防干预措施的需求非常迫切。健康暴力干预联盟已将SaFETy评分列为改善医院和社区暴力干预的重点（46），我们的外部验证结果也支持了这一结论。然而，需要在其他环境中评估SaFETy评分的预测性能，例如非城市急诊科、学校、社区健康中心以及其他高风险青少年接触点。同样，也需要评估实际应用中的实施策略。要扭转当前的人际暴力趋势，需要利用所有可用工具来加强初级预防工作，而这项研究支持SaFETy评分在这些努力中的重要作用。

热点排行