《Mind, Brain, and Education》:Identification and Classification of Learning Disabilities Using Machine Learning Approaches: A Meta-Analysis
编辑推荐:
机器学习(Machine Learning, ML)算法已被越来越多地用于预测不同学科领域的学习障碍(Learning Disability, LD)风险,但不同算法的有效性尚不明确。研究人员总结了关于使用行为数据(例如,音素操作和声音混合)、行为生物特征数据
机器学习(Machine Learning, ML)算法已被越来越多地用于预测不同学科领域的学习障碍(Learning Disability, LD)风险,但不同算法的有效性尚不明确。研究人员总结了关于使用行为数据(例如,音素操作和声音混合)、行为生物特征数据(手写、键盘输入、眼动、面部表情)和神经影像数据(例如,脑电图EEG、功能性磁共振成像fMRI)进行LD识别和分类的ML应用文献。研究人员采用多水平元分析方法,以理解分类统计量在数据来源、人群、研究设计与目的、算法(例如,支持向量机器Support Vector Machines)和模型构建方法(例如,特征选择、超参数调整)等研究及模型层面特征上的表现。本次元分析纳入了41项初级研究和331个ML模型。在所有算法中,合并准确率估计值范围为0.75至0.88。诸如样本构成(例如,年级水平)、数据类型(例如,脑成像与检查表)以及是否纳入学术技能(例如,拼写和执行功能)等因素对不同算法的影响各异,但即使最具预测性的模型也存在显著的残余异质性。总体而言,这些发现为一项新兴文献提供了基线概览,随着初级研究开始采用比模型准确性更标准化和全面的报告方法、使用更大更多样化的样本(特别是对于生物学数据源)、纳入外部验证,并在模型开发和评估中更明确地解决公平性和泛化性问题,其结论有望不断演进。
## 研究背景与目的
学习障碍(LD)是一组广泛的神经发育障碍,影响个体处理、存储和检索信息的能力,通常表现在阅读、书写和数学等核心学术领域。早期识别和干预对于改善LD个体的教育成果和长期福祉至关重要。然而,由于LD并非直接可观测,且个体表现具有多样性,其识别本身具有挑战性。机器学习(ML)通过分析大型数据集来识别指示LD的模式,为补充现有方法提供了有前景的途径。尽管ML尚未常规用于LD评估,但新兴研究强调了其在协助LD筛查和检测方面的可行性。ML方法可以通过提高识别的准确性和效率来补充传统的诊断方法,例如行为观察、访谈、家庭史、学校报告和神经心理评估。通过更精确地表征LD,ML也有助于支持个性化、有针对性的干预措施的发展。此外,将ML纳入识别过程符合从单纯依赖临床直觉向基于证据的LD分类转变的趋势。因此,ML有潜力通过促成从“等待失败”模式(即等待学生表现出显著的学术困难后才提供必要干预)向预防导向的主动框架(即在重大学业失败发生前识别和支持有LD风险的学生)的转变,从而彻底改变教育方法。
本研究旨在系统综述和元分析ML在LD识别与分类中的应用,以解决现有综述范围有限、报告不标准、缺乏对模型准确性之外的关键调节因素(如样本多样性、报告质量、公平性考量)的系统考察等问题。具体研究问题包括:(1)各种ML算法在多个研究中的无调节模型中预测LD相关结果的准确性如何?(2)一般研究层面特征(即出版物类型、学科背景、年龄组和研究质量)如何影响ML模型的预测性能?(3)LD特定研究特征(即自我报告的和操作性的识别或分类目的、LD纳入标准、LD患病率、评估的学术技能和数据类型)如何影响模型性能?(4)模型特征(例如,特征数量、超参数调整、重复交叉验证、模型中是否包含人口统计信息)如何影响模型性能?
## 主要技术方法
研究人员采用了系统综述与元分析相结合的方法。首先,通过组合关键词和主题词对多个数据库进行了全面文献检索,筛选了探讨ML与LD关系的实证研究。两位审阅者独立对标题和摘要进行初步资格筛选,随后对全文进行评估,以确定是否纳入元分析,意见不一由第三位审阅者协调解决。纳入的研究需报告性能指标(如准确率、敏感性、特异性或AUC),并专注于LD的识别或分类。从纳入的研究中,研究人员使用标准化编码表提取了相关信息,编码变量包括研究特征(如出版类型、学科、国家、数据类型、LD患病率、纳入/排除标准、研究目的与功能、研究质量)和模型特征(如特征选择、维度比、是否纳入人口统计信息、交叉验证、训练/测试比例、重复交叉验证、超参数调整、性能指标)。研究质量采用流行病学观察性研究报告加强(STROBE)清单进行评估。在分析层面,对准确率进行了logit变换,采用多水平随机效应模型进行元分析,以处理数据的嵌套结构。首先为每种算法类型(贝叶斯方法、聚类、线性模型、神经网络/深度学习、支持向量机器SVM、基于树的模型)分别建立无调节模型,评估异质性,然后逐一检验各个调节变量,最后将显著的调节变量组合成完整模型。
## 研究结果
### 整体准确性(RQ1)
元分析结果表明,在所有算法中,ML模型预测LD的合并准确率估计值范围在0.75至0.88之间。神经网络/深度学习和贝叶斯方法展现出最高的合并准确率估计值(分别为0.877和0.876),其次是线性模型(0.858)、基于树的模型(0.843)、聚类算法(0.821)和支持向量机(0.750)。所有算法类别都显示出显著的异质性。
### 一般研究特征的影响(RQ2)
研究样本的教育水平对模型准确性有调节作用,但影响方向和大小因算法类型和教育阶段而异。例如,小学样本的存在显著提高了聚类和SVM的准确率,但包含学前学生会降低SVM的准确率。研究质量得分平均为70%(“良好”范围),较高的研究质量与SVM更高的准确率显著相关。研究学科也调节了线性模型和SVM的准确率,医学学科的研究在线性模型中准确率显著高于生物学/生物医学工程。
### LD特定研究特征的影响(RQ3)
评估的特定技能方面,拼写是神经网络/深度学习和基于树模型的显著正向调节因素。纳入执行功能数据与SVM更高的准确率相关。手写和数学技能与基于树模型更高的准确率相关。自我报告研究目的为“识别”的研究倾向于在线性模型中获得更高的准确率。研究功能为“分类”(即描述组间差异)与线性模型和SVM显著较低的准确率相关。LD患病率对神经网络/深度学习和基于树模型的准确率有正向影响。使用教育史来定义LD风险与线性模型和神经网络更高的准确率相关。数据类型显著调节了聚类、线性模型和基于树模型的准确性,例如,使用清单数据的线性模型准确率最高,而使用脑数据的模型准确率最低。
### 模型特征的影响(RQ4)
对于聚类和线性模型,较高的维度比(特征数与样本量之比)与较低的准确率相关。聚类模型在训练数据比例更高时表现更好。在基于树的模型中,进行超参数调整的模型准确率反而更低。在SVM中,将人口统计信息(如种族、语言背景)纳入分析模型与较低的准确率显著相关。
### 综合效应
当同时纳入多个显著的研究层面和模型层面调节变量时,模型显示出一定的改善,但所有算法类别中都仍存在显著的残余异质性,表明这些因素并未完全解释性能的变异。
## 讨论与结论
讨论部分首先重申了LD作为特殊教育中最大学生群体的复杂性,以及ML在补充传统识别与分类方法方面的巨大潜力。研究确认,使用可及、侵入性较低的数据源(如行为评估、检查表、手写样本)训练的ML模型,在预测LD风险方面的准确率高于使用脑成像等复杂数据的模型,这支持了LD的层次化框架,即与课堂行为更近端的指标能提供更有效的预测信号。然而,研究也指出了三个关键障碍:一是对公平性关注不足,人口统计信息在模型开发和评估中常被忽视,可能加剧现有不平等;二是缺乏对发展阶段和评估领域作为核心设计变量的系统性考量,导致对模型在不同年龄组和技能上表现的解释受限;三是跨学科协作不足,可能无意中延续关于LD的错误观念,并混淆“识别”(个体诊断)与“分类”(算法技术术语)的概念。
研究的局限性包括,主要结果指标(准确率)可能不完全符合所有研究目标(特别是分类研究),且对模型其他关键性能(如敏感性、特异性、公平性)的分析受限于初级研究的报告不完整。此外,使用STROBE清单作为研究质量指标可能存在将报告完整性与方法学严谨性混为一谈的风险。
最终,研究结论强调,尽管ML为LD识别和分类带来了希望,但要将其有效整合到多层次支持系统(MTSS)中,需要进行范式转变:模型开发和评估必须超越单纯的性能优化,更加关注公平性、发展相关性和实际效用。在短期内,AI/ML最适合作为支持测量创新和辅助决策的工具,而非替代复杂的临床判断或自动化转介与安置决策。未来研究需要更深入地结合发展理论、采用标准化报告、使用更大更多样化的样本,并明确评估模型的公平性、稳健性和临床实用性。