深度学习在中医疾病诊断中的方法学质量与临床转化：系统评价与验证缺口分析

《Information》：Methodological Quality and Clinical Translation of Deep Learning in Traditional Chinese Medicine Disease Diagnosis: A Systematic Review and Validation Gap Analysis

【字体：大中小】 时间：2026年06月10日 来源：Information 2.9

编辑推荐：

　　本研究介绍人工智能素养与胜任力测验（Competence and Literacy Test in Artificial Intelligence, CAIA）的开发与心理测量学验证，该工具旨在评估高等教育情境下个体的人工智能（Artificial Intel

本研究介绍人工智能素养与胜任力测验（Competence and Literacy Test in Artificial Intelligence, CAIA）的开发与心理测量学验证，该工具旨在评估高等教育情境下个体的人工智能（Artificial Intelligence, AI）素养（AI Literacy, AIL）与AI胜任力（AI Competence, AIC）。随着AI日益融入学术与职业环境，亟需可靠工具来评估个体与AI相关的概念理解、伦理意识及应用胜任力。研究人员对西班牙某大学多个院系的510名大学生施测该工具，并采用交叉验证设计进行探索性因子分析（Exploratory Factor Analysis, EFA）与验证性因子分析（Confirmatory Factor Analysis, CFA）。结果支持多维结构：最终版18题量表由两相关因子（批判性—概念性AI素养因子与创造性—应用性AI胜任力因子）及一个代表全局CAIA得分的二阶层级模型构成。模型拟合指数可接受至良好，信度估计（含序次系数与测量误指标）显示其在个体与群体水平解释上均具足够精度。聚合效度、区分效度分析及跨学业亚组假设检验进一步支持建构效度。结果表明CAIA是一种理论基础扎实且心理测量学稳健的工具，可用于评估高等教育中的AI相关胜任力，亦可支持以促进数字化学习环境中知情、批判性与负责任地参与AI为目标的研究、课程设计与教育举措效果评估。

《人工智能素养与胜任力测验（CAIA）的开发与心理测量学验证》论文解读

一、研究背景与目的

随着生成式人工智能（Generative Artificial Intelligence, GAI）如ChatGPT在各领域的快速渗透，高等教育中亟需明确区分并科学测评学生的AI素养（AI Literacy, AIL——对AI概念、原理、伦理风险的理解与批判性反思）与AI胜任力（AI Competence, AIC——在真实或模拟情境中综合运用知识技能设计、评估和管理AI系统的能力）。现有文献常将二者混用，且已有测评工具多聚焦声明式知识（AIL），缺乏基于表现的高阶胜任力（AIC）测评，且心理测量学证据（如测量不变性、测量误差、序次信度等）不充分。为此，研究人员开发了人工智能素养与胜任力测验（Competence and Literacy Test in Artificial Intelligence, CAIA），旨在通过理论清晰的双维结构及严谨的多阶段验证，提供兼具子量表与全局得分的可靠测评工具。该论文发表于《Information》。

二、主要关键技术方法

研究人员采用工具开发研究设计（instrumental research design）。样本为马德里康普顿斯大学（Complutense University of Madrid）510名本科生（男272人、女238人），涵盖物理、数学、化学、信息、计算机、生物及医学七个院系，按学年分层。初版CAIA含78个李克特五点计分项，覆盖布鲁姆分类法（Bloom's Taxonomy）六层级（记忆Remember、理解Understand、应用Apply、分析Analyse、评价Evaluate、创造Create）各9题及伦理与意识维度各12题。数据随机分为两半分别进行探索性因子分析（EFA, n=255）与验证性因子分析（CFA, n=255）。EFA基于多系列相关系数（polychoric correlation）矩阵，采用最小残差法（Minimum Residual, MINRES）提取因子并以simplimax斜交旋转；通过Horn平行分析（Horn's parallel analysis）确定保留因子数。CFA采用鲁棒最大似然估计（Robust Maximum Likelihood, MLR）含Yuan–Bentler校正，比较单维、双相关因子、二阶及双因子（bifactor）模型，以比较拟合指数（Comparative Fit Index, CFI；Tucker–Lewis Index, TLI）、近似误差均方根（Root Mean Square Error of Approximation, RMSEA）及标准化残差均方根（Standardized Root Mean Square Residual, SRMR）等评价拟合，以赤池信息准则（Akaike Information Criterion, AIC）、贝叶斯信息准则（Bayesian Information Criterion, BIC）比较模型简约性。聚合与区分效度通过平均方差萃取（Average Variance Extracted, AVE）、异质─单体相关系数（Heterotrait–Monotrait Ratio, HTMT）及Fornell–Larcker准则检验。信度计算克朗巴赫α（Cronbach's α）、麦克唐纳总ω（McDonald's total ω）、层级ω_H（hierarchical ω_H）及其序次版本（基于多系列相关矩阵）；测量精度通过测量标准误（Standard Error of Measurement, SEM）与95%最小可探测变化（Minimum Detectable Change at 95% confidence, MDC₉₅）在个体与群体水平评估。亚组差异采用Yuen稳健t检验及Welch型稳健方差分析与Games–Howell事后检验。所有分析使用R 4.4.1及psych、lavaan、ltm等程序包完成。

三、研究结果

3.1 探索性因子分析（Exploratory Factor Analysis, EFA）

78题版EFA析出五因子但累积方差低（33.9%）、因子间相关近零且结构理论不符预期；筛选保留34个高载荷、低唯一性及概念无冗余项目后重新EFA，获双因子结构：因子1含创造（Create）、应用（Apply）及伦理─操作类题目（AIC），因子2含意识、理解（Understand）、记忆（Remember）及评价（Evaluate）类题目（AIL），两因子相关r=0.184，模型拟合较78题版明显改善（TLI由0.808升至0.863），支持AIL与AIC既相关又可区分的理论预设。

3.2 验证性因子分析（Confirmatory Factor Analysis, CFA）

对34题数据集拟合四模型：单维模型拟合差；双相关因子模型、二阶层级模型（CAIA→AIL+AIC）及双因子模型拟合均达可接受至优秀（CFI>0.95，RMSEA<0.06，SRMR<0.08）。双因子模型统计拟合最优但因一般因子解释力弱于特定因子且解释困难，综合考虑理论与实用性选定双相关因子模型与二阶模型。两因子相关较低，HTMT远低于临界值，√AVE大于因子间相关，证实区分效度；AVE未全达0.50阈值提示AIL维度后续可优化但题目保留具理论价值。

3.3 项目精简程序（Item Reduction Procedure）

依据统计指标（修改指数、交叉载荷、唯一性）与理论均衡覆盖AIL/AIC的原则，将34题进一步精简至最终18题（AIC 10题，AIL 8题），天花板效应轻微（最高响应类别多<20%，少数≈25%）。

3.4 CAIA最终构成（Final Composition of CAIA）

最终版CAIA含两因子：因子1"创造性—应用性AI胜任力（AIC，10题）"测量在情境中调动知识、技能与态度以设计/实施/评估AI方案及纳入伦理判断的能力；因子2"批判性—概念性AI素养（AIL，8题）"测量对AI基本概念、运作原理、应用场景及伦理社会风险的理解与批判性反思。全局CAIA得分为二阶一般因子，整合AIL与AIC反映综合AI就绪度。

3.5 信度（Reliability）

AIC子量表内部一致性高（Cronbach's α、McDonald's ω及序次版均理想），AIL子量表信度适中（符合预期因项目特异性方差略大），全局CAIA总分信度良好。层级ω_H表明全局共同方差中等，支持同时使用全局分与子量表分。

3.6 测量标准误（Standard Error of Measurement, SEM）与最小可探测变化（Minimum Detectable Change, MDC₉₅）

AIC子量表个体SEM≈2.73–3.08，个体MDC₉₅≈7.6–8.5分；AIL子量表SEM≈2.77–2.95，MDC₉₅≈7.7–8.2分；全局总分SEM≈4.2–4.7，MDC₉₅≈10.6–13.1分。性别分组水平MDC极低（≈0.5分左右），表明工具对群体均值差异具良好敏感度。个体分数变动未超过上述阈值宜视为测量误差。

3.7 假设检验（Hypotheses Testing）

性别在AIL、AIC及CAIA上均无显著差异（效应量微小）；不同院系间AIC与CAIA存在显著差异（信息科学与计算机类院系高于部分其他院系），符合AI接触度差异预期；学年间无显著差异，暗示本科阶段AI相关素养/胜任力未随年级自动提升。

四、讨论与结论总结

研究人员指出CAIA经EFA/CFA交叉验证支持双相关因子及二阶层级结构，明确了AIL（知与批判反思）与AIC（做与情境决策）的操作化区分，弥补了既往工具混用维度及心理测量证据不足的缺陷。信度报告超越Cronbach's α，纳入序次可靠性、层级ω_H、SEM与MDC₉₅，为个体与群体水平分数解释提供量化界限。局限包涵：AIL维度AVE未达标需扩充同质项目；部分亚组测量不变性未能确立（配置模型拟合不佳或潜变量协方差不可估），需多中心复现与纵向检验；作为自评李克特工具应辅以表现本位任务；需注意社会期许偏差。总体而言，CAIA是具有初步结构与信度证据、理论驱动且简洁的高等教育AI素养与胜任力测评工具，可用于教学评估、课程成效研究与相关研究，其二阶模型支持全局与分维度并行解释，为未来AI教育测评提供了更严谨的测量基础。

热点排行