《Physical Therapy Reviews》:Innovating OSCEs: a multiphase study evaluating the opportunities and challenges of digitally enabled clinical assessments
编辑推荐:
背景与目的:2019冠状病毒病(COVID-19)大流行促使澳大利亚某骨病学专业开发了一种混合式面对面与数字化客观结构化临床考核(OSCE),利用视频会议技术实现远程评估。本研究旨在探讨混合式OSCE所带来的机遇与挑战。方法与被试:这项实用主义多期研究评估了异
背景与目的:2019冠状病毒病(COVID-19)大流行促使澳大利亚某骨病学专业开发了一种混合式面对面与数字化客观结构化临床考核(OSCE),利用视频会议技术实现远程评估。本研究旨在探讨混合式OSCE所带来的机遇与挑战。方法与被试:这项实用主义多期研究评估了异步评阅的信度,并通过调查问卷探究了参与者的感知。91名骨病学学习者参加了总结性考核,其中同步评阅(T1)在实时进行;异步评阅(T2)于5个月后实施,比较OSCE总分及各单项评分标准分。研究人员进行了相关性分析、一致性分析及重测信度检验以确定信度。采用修订版学生电子考核感知问卷(SPEAQ)收集了17名学习者和3名考官的调查数据。结果:总分之间取得中等一致性(κw=0.45,p<.001)和强相关性(r=0.69,p<.001)。16项评分标准中仅有5项达到统计学显著相关(ρ=0.41–0.44,p<.001),一致性及重测信度均较差。这表明OSCE总分在T1与T2之间呈现一致的模式,但这种一致性未能可靠地延伸至单项评分标准。调查平均分介于3.75至4.84(SD=0.36–1.29),情感、实用性及教学层面的平均分最高。结论:结果表明,基于视频的异步评阅可能具有可行性,但本研究的限制条件下未能持续证明其信度。学习者与考官的积极感知表明数字化OSCE具有可接受性,并提供混合式格式所独有的教学效益。
研究背景方面,2019冠状病毒病(COVID-19)全球大流行对全球教育机构造成即时性挑战,健康专业教育(HPE)提供者亟需应对疫情带来的教学中断。许多高等院校被迫快速从面授转为线上教学与评估。在澳大利亚墨尔本——全球封锁时间最长的城市之一,保持临床能力考核的连续性与严谨性尤为关键。客观结构化临床考核(OSCE)是健康专业课程中广泛应用的临床能力评估工具,传统形式为面对面进行,涉及6至16个考站,学习者在标准化临床场景中完成病史采集、体格检查或模拟治疗等任务。疫情前,视频技术在OSCE中的应用主要限于学生表现分析或 compound 内容交付;疫情后,虚拟与混合式OSCE格式逐渐普及,催生出多媒体材料交付、远程同步评估及异步评估等新机遇,但这些实践的可接受性、信度与可辩护性尚需验证。为此,墨尔本皇家理工大学(RMIT University)骨病学专业于2020年率先试点远程同步在线评估,构建了融合多种数字工具的混合式OSCE。本研究在此基础上,于2022至2023年连续两期队列中开展多期研究,旨在探索混合式OSCE的机遇与挑战。
研究人员开展的研究分为两个核心目标:第一,评估异步评阅相较于实时评阅的可靠性;第二,探索学习者与考官对混合式OSCE各特征的感知与接受度。研究采用实用主义多期设计,2022年进行预试验探索基于视频的异步评分可行性,2023年开展大规模信度评估与感知调查。91名骨病学学习者参与总结性考核,同步评阅(T1)由16名临床督导与学术人员完成;5个月后,3名研究团队学术人员实施异步评阅(T2),采用相同评分标准。
研究得出的核心结论是:异步视频评阅在全球性分数层面可能具有可行性,总分呈现中等一致性与强相关性,但单项评分标准的信度表现不一致,未能持续证明其可靠性;同时,学习者与考官对混合式OSCE的感知整体积极,尤其在情感支持、实用性与教学价值方面评分较高。该论文发表于《Physical Therapy Reviews》,为数字化临床考核的创新实践提供了重要参考。
关键技术方法方面,研究人员采用了以下主要设计与分析策略:混合式OSCE通过在线视频会议软件实现考官远程评估,以带旁白的PowerPoint视频(含音视频元素)交付病例资料与诊断图像,并以倒计时器控制虚拟考站时间进度;评分采用电子量规,运用4点评分量表(0、2、3、4)评估能力标准,其中"2分"代表达标,"3-4分"为优秀表现,"0分"为不达标且危及患者安全即该考站立即不及格,知情同意项目采用二分法(达标/不达标);统计方法包括Pearson相关系数分析总分关联、Spearman等级相关系数分析单项标准、Cohen加权Kappa(κ
w)评估一致性、ICC(intraclass correlation coefficient,组内相关系数)双随机效应模型评估重测信度,以及Kendall's tau-b相关分析调查项目内部关系;感知调查基于修订版SPEAQ(Student Perceptions of e-Assessment Questionnaire,学生电子考核感知问卷),涵盖情感因素、效度、实用性、信度与公平性、安全性、教学6个维度。
研究结果部分保留原文小标题并简要说明如下:
**Phase 1预试验:可行性与信度初探**。3名学习者与1名考官参与预试验,Pearson相关性显示总分无显著关联(r=0.06,p=0.91),但5项标准达到显著Spearman相关(ρ>0.99,p<.01),1项标准取得显著加权Kappa一致性。由于样本量不足,结果无统计学意义,但确认了异步视频评阅的技术可行性。
**Phase 2总分比较**。91名学习者纳入分析(92%参与率)。T1与T2总分呈强相关(r[90]=0.69,95%CI[0.59–0.78],p<.001),加权Kappa显示中等一致性(κ
w=0.45,95%CI[0.34–0.56],p<.001)。散点图显示正向线性关系,数据点沿拟合线紧密聚集,表明两种评估条件下评分模式一致。
**单项标准分数比较**。16项评分标准中仅5项呈现中等正相关(ρ=0.41–0.44,p<.001,n=91),95%置信区间较宽(0.21–0.57至0.26–0.60)。8项标准达公平一致性(κ
w=0.22–0.33,p<.05),其余8项一致性差;ICC值介于0.21–0.45,95%置信区间包含低下限值,表明信度持续较差。4项知情同意项目中,仅1项T1与T2评分存在显著关联(Fischer精确检验,p=0.02)。
**学习者与考官感知**。20名参与者(17名学习者、3名考官)完成调查,11个项目的众数为4或5分(同意–非常同意),中位数≥4。平均分3.75–4.84(SD=0.36–1.29),情感维度(mean=4.74)、实用性维度(mean=4.21, 4.21, 4.05)及教学维度(mean=4.84, 4.63)评分最高,效度(mean=3.75)与信度公平性(mean=3.84)略低。Kendall's tau-b分析显示,情感维度(τ
b=0.43,p=0.04)与实用性维度(τ
b=0.52,p=0.01)项目间呈中等相关,教学维度项目间呈强相关(τ
b=0.70,p=0.001);效度维度相关较弱且不显著(τ
b=0.27)。
讨论部分总结:研究人员指出,既往研究与本研究一致观察到总分层面的强相关性,且评分者间达中等一致性,但不可将此解读为信度的决定性证据。在标准层面,16项标准中仅5项呈现中等相关,4项知情同意项目中仅2项显示信度,且95%置信区间普遍较宽,多数情况下信度测量低于可接受阈值。OSCE中的评分差异普遍存在,可能与考试形式、考官特征、考站数量与时长、观察时间等因素相关。本研究采用不同考官在不同时点评阅,考官效应可能解释部分变异,而不同学术背景(临床督导与学术人员)的考官对评分标准的解读与应用差异亦可能贡献变异。异步考官可暂停、回放录像,可能促成更审慎的评分,而同步考官在时间限制下更依赖启发式判断,临床经验与总体印象可能引入偏差。此外,延迟评分效应(DRIFT效应)可能通过灵活调整观察时间得以缓解,视频记录亦为质量控制和机构标准对照提供可靠途径。然而,混合式OSCE存在局限:确保视频画面无遮挡以观察操作技能仍具挑战;安全性方面,高风险技术(如高速低幅手法,即HVLA)的直接在场观察仍有必要。本研究为探索性研究,采用实用主义设计,未严格控制变量,考官效应、5个月间隔期、非盲法评分、预审核分数的使用等因素均限制结论的确定性;感知调查问卷未经校验,推论需谨慎。尽管如此,参与者对混合式OSCE的积极感知支持了数字化创新的价值,未来需进一步校验评估工具,并开发在面对面、远程及异步设置中表现一致的临床考核工具。
研究结论翻译:本研究结果表明,从全球性分数角度考虑,数字化OSCE的异步评阅作为评估策略可能具有可行性。然而,信度未能得到持续证明,各单项考站标准的测量表现参差不齐。因此,本研究未能提供充分证据表明OSCE异步评分具有足够的信度。这些发现需结合研究限制条件加以考量,其中考官效应可能解释部分变异性,使得难以确定哪些评分不一致直接归因于时间效应。参与者对混合式OSCE的积极感知表明,OSCE的创新及数字化格式的采用具有价值。需要进一步研究以完善并校验该混合式OSCE中使用的评估工具,目前正在进行的研究旨在开发能够在面授、远程及异步设置中表现一致的临床考核工具。