《Developmental Cognitive Neuroscience》:ABCD-ReproNim: An Educational Program for Responsible and Reproducible Analyses of ABCD Data
编辑推荐:
ABCD-ReproNim是一项研究教育课程,旨在为青少年脑认知发展(Adolescent Brain Cognitive Development, ABCD)研究数据的负责任与可重复分析提供培训。ABCD-ReproNim建立于2020年,采用ABCD研究者
ABCD-ReproNim是一项研究教育课程,旨在为青少年脑认知发展(Adolescent Brain Cognitive Development, ABCD)研究数据的负责任与可重复分析提供培训。ABCD-ReproNim建立于2020年,采用ABCD研究者与ReproNim之间的协作伙伴模式。ReproNim是由美国国家生物医学成像与生物工程研究所(National Institute of Biomedical Imaging and Bioengineering, NIBIB)资助的P41中心,其愿景是帮助研究人员实现更具可重复性的数据分析工作流程与研究结果。该项目已吸引超过1.1 K名注册学生,并在YouTube上获得超过18 K次观看,受到学术共同体的广泛欢迎;在提供ABCD数据培训的同时,也推动了支持高效、可重执行(re-executable)设计与FAIR实践的可重复分析技能发展。
参与者首先接受为期一学期的在线课程教学训练,课程包括讲授、阅读材料与数据练习。该项目采用一种创新性课程设计方法,其理论基础植根于现代、变革性的STEM教育学方法,融合了主动学习(active learning)、翻转课堂(inverted classrooms)和hack week等理念与特征。在课程结束后,参与者于主办机构——位于佛罗里达州迈阿密的佛罗里达国际大学——参加现场黑客松(hackathon),并在其中投入基于团队的协作数据分析项目。
通过这一研究教育项目,研究人员提供了:(i)对ABCD数据集的全面理解;(ii)可增强研究方法有效性与可重复性的教学技术;(iii)对跨学科、团队式协作的支持;以及(iv)课程内容、项目材料和研究发现的传播。该项目的总体目标是培养一支熟练掌握支持ABCD数据负责任、可重复且有效分析技术的研究者队伍。
该文发表于《Developmental Cognitive Neuroscience》,核心内容并非报告某一单一科学实验发现,而是系统介绍ABCD-ReproNim这一研究教育项目的设立背景、课程理念、实施模式、学员构成、学习成效、长期影响及后续扩展计划。文章立足于当前生物医学研究进入大规模共享数据时代这一背景,指出以青少年脑认知发展(Adolescent Brain Cognitive Development, ABCD)研究为代表的大型纵向队列,汇集了脑影像、行为、基因组学以及社会环境等多模态资料,为发展科学、脑科学与儿童健康研究提供了前所未有的数据基础。然而,数据规模与复杂性的提升并未自动转化为高质量研究产出,反而暴露出研究共同体在数据理解、分析规范、方法透明性、结果可重复性以及结论有效性等方面的明显短板。研究人员特别强调,生物医学与生命科学领域长期存在可重复性危机,研究过程若缺乏足够透明度与严谨性,即便使用相同数据和同样分析路径,也未必能稳定重现结果。与此同时,观察性数据分析还面临选择偏倚、混杂、测量误差、模型设定错误以及测量不变性不足等问题,若处理不当,所得结果即可能缺乏效度。对于ABCD这类包含种族、族裔、性别、社会决定因素与社区环境等复杂变量的大型开放数据集而言,研究“负责任性”同样不可或缺,因为研究设计、变量使用、结果解释与传播方式均可能影响个体、群体与社会公平。
正是在这一背景下,研究人员于2020年建立ABCD-ReproNim教育项目,目标是在传统短期工作坊和黑客松之外,构建一种更系统、更具延展性、同时兼顾知识传授与技能实践的培训路径。文章认为,传统的一至两周沉浸式培训难以支持学习、巩固与技能形成,尤其对于缺乏计算背景或可重复研究训练的学员而言更是如此。因此,ABCD-ReproNim采用现代主动学习(active learning)理念,以翻转课堂(flipped classroom)和团队协作学习为骨架,将为期一学期的在线教学与后续黑客松项目整合起来。学员先通过多周讲座、阅读与数据练习掌握ABCD数据结构、评估体系、影像方案及ReproNim关于FAIR数据(即可查找、可获取、可互操作、可重用)、版本控制、容器、数据语义、工作流管理、可重执行出版等内容,再在课程末期进入协作项目阶段,将前期所学迁移到真实数据分析任务中。文章据此提出,该项目填补了典型NIH T32培训项目与短期夏校之间的空白,为负责任、可重复且有效的ABCD数据分析提供了更适配的教育框架。
从实施情况看,研究人员详细回顾了2020年与2022年两轮课程。2020年共有744名学员注册,2022年为316名,学员涵盖本科生、研究生、博士后、科研人员及教师,且在种族/族裔、性别、STEM领域代表性不足群体身份以及编码经验方面具有多样性。2020年课程最初区分“正式注册学员”与“旁听学员”,并采用加权抽签方式遴选100名正式学员,以在有限资源下兼顾公平与多样性,同时尽量降低申请审核中的隐性偏倚。随着项目推进,研究人员观察到从初始注册到完成课程及参与黑客松之间存在明显流失,因此在2022年取消正式与旁听区分,改为允许学员根据兴趣与时间自主决定参与深度,这一调整体现了项目对大规模开放在线学习(massive open online courses, MOOCs)参与规律的适应。配套方面,项目设置了教学助理(teaching assistants, TAs)与后续扩展出的ABCD-ReproNim Fellows,负责练习设计、办公时间答疑、项目指导、课程质控与协作支持,从而增强课程可持续性与学员获得感。
方法概括而言,本文主要采用项目描述与教育评估相结合的方式展开:其一,以两轮ABCD-ReproNim实施队列为对象,统计注册人数、学员职业阶段与背景特征;其二,基于课程数据练习测验、项目前后自评问卷和项目后满意度调查,评估学员知识、技能与主观体验变化;其三,于2023年对既往学员进行1—3年随访,考察论文发表、持续合作与基金申请等长期结局;其四,结合课程平台与教学结构,系统呈现在线课程、JupyterHub、Slack、Gather.Town及NowIKnowMyABCD论坛等支撑体系。样本来源即2020年与2022年ABCD-ReproNim注册及参与学员队列。
在结果部分,文章可按原文小标题理解其主要发现。
“2020/2022 Program”部分说明,项目在2020年首次开课,2022年第二次开课,并在2022年增设了人工智能与机器学习(artificial intelligence/machine learning, AI/ML)五周迷你课程,两轮课程后分别举行虚拟黑客松,表明教学已形成“在线学习+项目实践”的稳定结构。
“2020/2022 Cohorts”部分显示,项目吸引了大量且背景多元的学员。2020年744名注册者中,最终54名正式学员完成了15个协作式ABCD数据分析项目;2022年316名注册者中,35名学员完成了6个协作项目。研究人员据此指出,项目具有较强吸引力,同时也面临开放在线课程常见的参与递减现象。该部分还说明,教学助理在课程实施和项目推进中承担关键支持作用。
“2020/2022 Student Feedback”部分报告了学生对学习收获、团队进展、代码可重复性、课程支持、JupyterHub计算资源以及人际联结等方面的满意度调查结果。整体反馈积极,尤其在知识增益以及人员与计算支持方面评价较高;与此同时,关于项目进度预期管理、代码可重复性准备程度等方面的意见,也为后续课程优化提供了依据。由此可见,项目不仅获得正向认可,也通过反馈机制不断校正教学设计。
“2020/2022 Changes in Knowledge and Skills”部分进一步从量化角度评估学习成效。数据练习测验平均成绩显示,2020年正式学员为73.88%,2020年旁听学员为71.18%,2022年学员为87.19%。更重要的是,项目前后自我评估显示,学员在ABCD研究设计、ABCD测量、神经影像、 生物样本与新技术、可重复神经影像学、FAIR数据、计算基础、神经影像工作流、统计学以及开展ABCD数据可重复分析的舒适度等各维度得分均显著上升,且均达到P<0.001。该结果表明,项目在提升数据集理解、方法学认知与可重复分析能力方面具有明确教育效果。
“2020/2022 Long-Term Outcomes”部分呈现了最具说服力的长期影响证据。研究人员在2023年对两届学员进行1—3年随访,在43名回应者中,共有28篇同行评议论文或预印本被报告为源于ABCD-ReproNim训练与活动;26%的回应者表示仍在持续参与合作或相关活动,包括共同推进ABCD论文、将课程材料用于自身学生教学、扩展到其他项目与数据集的合作以及参与同行职业支持网络;12%的回应者报告已提交涉及ABCD数据分析的NIH基金申请。由此,文章认为该项目对学员科研职业发展产生了持续且实质性的促进作用。
“2025-2027 Program Renewal”至“Online Course List and Description of Lectures”部分则说明该项目已在2024年末获得续期资助,并在2025—2027年进一步发展。更新后的课程保持翻转课堂框架,设置15周内容,涵盖ABCD研究设计、数据获取、抽样与保持、影像测量、物质使用、人口学与心理健康、家庭与社区、外部链接数据、神经认知评估、新型技术、生物样本、遗传学,以及纵向建模、负责任数据使用、社会环境因素与大规模复杂数据可视化等专题。同时,ReproNim模块系统覆盖Git、容器、预注册、P-hacking、语义标注、统计问题、DataLad、可重复工作流、ReproMan、机器学习可重复实践以及ReproPub等工具与理念,显示该项目已从单纯课程教学扩展为较成熟的开放教育生态。
“Computational Considerations”部分指出,研究人员意识到大数据项目中的计算资源约束,因此为学员提供JupyterHub共享平台,并鼓励使用可扩展且可重复的工作流,如BIDS App Bootstrap和BABS。这一设计有助于降低技术门槛,减少异质计算环境对复现实践的妨碍。
“Professional and Personal Development Opportunities”部分总结了课程在专业能力与协作能力上的双重收益。学员不仅学习ABCD数据访问、负责任数据使用、可重复工具与分析平台,还通过跨学科团队项目积累合作、问题解决、领导力与时间管理经验。文章据此强调,ABCD-ReproNim补充并强化了传统科研训练,在培育合作型、创新型科研队伍方面具有独特价值。
讨论部分的核心在于,研究人员将ABCD-ReproNim定位为一种面向开放共享大型数据时代的创新教育模式。文章反复强调,仅有数据开放并不足以保障高质量研究,必须同步培养研究者对数据来源、协议、局限、社会环境背景及计算流程的全面理解。该项目的意义不仅在于传授特定软件或工作流,更在于把“负责任性”“可重复性”与“有效性”整合为统一训练目标,并嵌入到真实研究问题和协作实践之中。研究人员还通过两轮项目经验认识到,大规模开放课程应允许弹性参与,课程支持体系需要同时覆盖异步学习、实时答疑、公开问答与项目制协作,这些认识共同推动了2025—2027阶段课程的结构优化。
研究结论部分可译为:通过将可重复性与负责任性训练同ABCD数据相结合,ABCD-ReproNim教育项目为工作坊和黑客松提供了一种新型翻转课堂支持模式。在该项目中,学生在学习ABCD数据负责任使用最佳实践的同时,也应用支持可重复且有效研究结果的策略与工具。通过参加为期一学期的在线课程,这一培训项目填补了典型NIH T32项目与沉浸式暑期学校之间的空白。基于教师授课与作业设计所增加的训练时长,为参与者在进入以ABCD数据创新为核心的协作分析实践之前奠定了坚实基础。总体而言,该项目的目标是强化科研队伍培训,以满足生物医学、行为学与临床研究在ABCD数据负责任且可重复使用方面的需求。