中轴型脊柱关节炎患者中强直性脊柱炎表现指数(ASPI)测试的评价者间绝对与相对可靠性研究

《Musculoskeletal Care》:Interrater Reliability of the Ankylosing Spondylitis Performance Index in Patients With Axial Spondyloarthritis

【字体: 时间:2026年04月27日 来源:Musculoskeletal Care 1.6

编辑推荐:

  针对axSpA物理功能评估主观性强、缺乏客观指标的痛点,研究者开展了ASPI测试的评价者间可靠性研究。结果显示该测试具备高绝对与相对可靠性(ICC 0.91),虽存在群体学习效应,但为临床重复测验的差异解读提供了关键量化依据。

  
想象一下,原本灵活的身体逐渐变得僵硬,简单的日常动作——比如弯腰捡起一支笔、穿上袜子,或是从地板上站起来——都变成了艰难的挑战。这便是中轴型脊柱关节炎(axial spondyloarthritis, axSpA)患者常常面临的残酷现实。axSpA是一种慢性、进行性的炎症性疾病,主要侵犯轴向骨骼,可导致脊柱僵硬和活动度下降,严重影响患者的日常生活能力、工作容量及社会交往,甚至带来抑郁等心理问题,造成沉重的社会经济负担。
在临床评估和临床试验中,准确评估axSpA患者的身体功能(Physical function)至关重要。目前,国际ASAS-OMERACT共识推荐将“身体功能”作为axSpA试验的强制性评估领域,而巴斯强直性脊柱炎功能指数(Bath Ankylosing Spondylitis Functional Index, BASFI)被视为评估axSpA/强直性脊柱炎(Ankylosing Spondylitis, AS)患者身体功能的金标准。然而,BASFI是一种患者报告结局指标(Patient-reported outcome measure),主要反映患者在日常生活中主观感知的身体功能水平。有观点认为,BASFI的分数更多与疼痛和劳累程度相关,而非实际的 mobility表现。为了更客观、灵敏地捕捉患者身体功能的变化,强直性脊柱炎表现指数(Ankylosing Spondylitis Performance Index, ASPI)应运而生。ASPI是一套基于表现的客观测试组合,源于荷兰,用于测量日常活动中的脊柱活动能力,其在反映身体功能变化上比BASFI更为灵敏。
尽管已有研究表明ASPI在同一名临床医生重复测量时(评价者内可靠性,intrarater reliability)具有可靠性,但在现实世界的临床实践和临床试验中,由于实际安排的限制,同一名患者在不同时间点进行随访测试时,往往会遇到不同的测试评价者(rater)。不同评价者之间的操作细微差别可能会引入测量误差,因此,明确不同评价者之间ASPI测试的可靠性(即评价者间可靠性,interrater reliability)显得尤为关键。此前仅有一项南美洲的研究报告了ASPI的相对评价者间可靠性,而其绝对评价者间可靠性(即以秒等绝对单位衡量的测量误差)尚未被探究。绝对可靠性对于临床医生直观解读分数差异具有重要意义。为此,研究人员在丹麦(一个北欧国家)开展了一项研究,旨在调查ASPI测试在axSpA患者中的绝对和相对评价者间可靠性。该论文发表在《Musculoskeletal Care》上。
为开展此项研究,研究人员设计了一项基于COSMIN(健康测量工具可靠性及测量误差检查表)的实用性前瞻性横断面研究。研究样本连续招募了52名来自丹麦风湿病医院门诊、确诊为axSpA(包括放射学阳性和阴性)的成年患者。两名由同一位资深物理治疗师同步培训的物理治疗师学生在候诊者不知情分配下,依次(中间间隔15分钟休息)对每名受试者进行了两次ASPI测试,且第二名评价者盲于第一名的结果。统计方法上,研究采用配对t检验分析组级系统误差,通过Bland-Altman图、标准测量误(Standard Error of Measurement, SEM)和95%置信度下的最小可测差异(Minimal Detectable Difference, MDD95)评估绝对可靠性,通过组内相关系数(Intraclass Correlation Coefficient, ICC)评估相对可靠性,并计算了最小临床重要差值(Minimal Clinically Important Difference, MCID)。
1 Introduction
研究背景指出,axSpA全球患病率约为每10万人130至1400例,常发于20-30岁,可发展为放射学阳性的AS(即radiographic axSpA)或仍保持放射学阴性的non-radiographic axSpA。疾病引发的脊柱僵硬限制了日常活动,而既往依赖主观问卷的局限催生了客观测试ASPI。尽管ASPI的评价者内可靠性已知,但不同评价者间的绝对可靠性数据缺失,且仅有南美数据支持其相对可靠性。因此,本研究意在北欧人群中填补ASPI绝对评价者间可靠性的空白,并验证其相对可靠性。
2 Materials and Methods
2.1 Recruitment
研究计划招募至少50名参与者以满足测量误差分析的样本量要求。52名受试者连续从2023年10月至11月的丹麦风湿病医院门诊招募,纳入标准为成年(≥18岁)、经风湿科医生确诊的axSpA(基于改良纽约标准或ASAS标准),排除无法理解指令或无法完成测试(如无法从地板站起)者。
2.2 The ASPI Test
ASPI测试包含三项标准化日常活动表现评估:1)弯腰从地板捡起6支铅笔(1次试验);2)穿袜子(3次试验的平均时间);3)从仰卧地板站起(3次试验的平均时间)。总分数为三项子测试时间之和。测试按现有指南进行,指令由西班牙语版本经Google翻译及双人校对后译为丹麦语。
2.3 Data Collection
两名评价者(物理治疗师学生)同步接受资深物理治疗师指导培训。受试者随机分配起始评价者,两次测试间隔15分钟,第二名评价者盲于首名结果,使用校准过的秒表计时。每次子测试后按Borg CR10量表(0-10)评估劳累度,按数字评定量表(NRS 0-10)评估疼痛。
2.4 Statistical Analysis
描述性数据统计后,组级系统误差用配对t检验(p≤0.05显著)。绝对可靠性用Bland-Altman图、SEM(组级)、MDD95(个体级)评估。MCID按Norman等方法计算。相对可靠性用双向随机效应模型的ICC(绝对一致性)评估,ICC<0.50差,0.50-0.75中,0.75-0.90好,>0.90优秀。此外,还补充分析了使用“最快时间”而非“平均时间”的可靠性差异。
3 Results
最终52名患者完成全部测试(平均年龄54岁,SD 14;病程平均17年,SD 12;男性53.8%)。
3.1 The Overall ASPI Test
整体ASPI测试的评价者间绝对测量误差为:组级SEM 1.36秒,个体级MDD 3.77秒,均低于MCID(6.04秒)。这意味着若不同评价者重复测试,≥3.77秒的变化才可能代表真实的身体功能改变。然而,第二次测试(第二名评价者)的整体完成时间(平均38.15秒,SD 12.16)显著快于第一次(40.92秒,SD 12.07),平均减少2.77秒(p<0.001),提示存在组级的学习效应。Bland-Altman图显示测量误差与受试者功能水平无关。整体ASPI的相对可靠性极高(ICC 0.91,95% CI 0.76–0.96)。
3.2 The Three ASPI Subtests
各子测试的绝对可靠性均较高:子测试1(捡铅笔)SEM 1.27秒(6.5%),MDD 3.52秒(17.9%);子测试2(穿袜子)SEM 0.84秒(6.3%),MDD 2.32秒(17.5%);子测试3(从地板站起)SEM 0.12秒(1.8%),MDD 0.33秒(5.0%)。所有子测试的第二次表现均显著快于第一次(p<0.001)。Bland-Altman图未发现误差与功能水平有关。相对可靠性方面:子测试1 ICC 0.86,子测试2 ICC 0.88,子测试3 ICC 0.97(优秀)。疼痛与劳累评分详情见表2。补充分析显示,子测试2使用“最快时间”而非“平均时间”时,可靠性略有提高(ICC从0.88升至0.93),而子测试3无明显变化。
4 Discussion
本研究首次提供了ASPI测试在不同评价者间的绝对可靠性数据(误差秒数),弥补了现有文献的不足,且反映了更真实的临床场景(不同评价者)。结果显示,整体ASPI及子测试均具备高绝对可靠性(组级SEM<10%,个体级MDD<20%),且整体及子测试3的误差更低(SEM<5%,MDD<10%)。MDD小于MCID,说明临床重要变化不会被测量误差掩盖。本研究的评价者间可靠性(SEM≤1.27秒,MDD≤3.52秒)与此前的评价者内可靠性结果非常接近,其中子测试3(从地板站起)的误差始终最低,可靠性最高。
值得注意的是,整体ASPI及各子测试均观察到统计学显著的学习效应,第二次表现更快。这与既往研究一致,推测15分钟的间隔虽消除了日间方差,但可能通过“热身效应”和策略优化提升了表现。因此,作者建议在正式评估前进行熟悉性练习试验,以减少主评估中的学习效应。此外,相对可靠性(ICC 0.91)与此前南美研究(0.88-0.96)吻合。
研究也存在一定局限,如ASPI指令为非专业翻译,以及ASPI无法应用于连借助椅子都无法从地板站起的重症disabled患者。但优势在于,评价者仅为临近毕业的物理治疗师学生,证明经良好培训后,经验较少的治疗师甚至其他医护人员也可胜任测试,增强了结果的外部有效性;且所有测试在同一环境进行,保证了环境一致性。
综上所述,该研究证实了ASPI测试在axSpA患者(包括放射学阳性与阴性)中,无论是组级还是个体级,均具备高水准的绝对和相对评价者间可靠性。尽管存在组级学习效应,但研究提供的秒级测量误差数据(如MDD 3.77秒)为临床医生解读不同评价者重复测试的分数差异提供了清晰、实用的指导,对真实世界的临床实践具有重要价值。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号